論文の概要: Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
- arxiv url: http://arxiv.org/abs/2502.16750v1
- Date: Sun, 23 Feb 2025 23:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:26.013582
- Title: Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
- Title(参考訳): エージェント・システムのガーディアン:エージェント・システムによる多くのショット・ジェイルブレイクの防止
- Authors: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir,
- Abstract要約: 本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
- 参考スコア(独自算出の注目度): 0.8136541584281987
- License:
- Abstract: The autonomous AI agents using large language models can create undeniable values in all span of the society but they face security threats from adversaries that warrants immediate protective solutions because trust and safety issues arise. Considering the many-shot jailbreaking and deceptive alignment as some of the main advanced attacks, that cannot be mitigated by the static guardrails used during the supervised training, points out a crucial research priority for real world robustness. The combination of static guardrails in dynamic multi-agent system fails to defend against those attacks. We intend to enhance security for LLM-based agents through the development of new evaluation frameworks which identify and counter threats for safe operational deployment. Our work uses three examination methods to detect rogue agents through a Reverse Turing Test and analyze deceptive alignment through multi-agent simulations and develops an anti-jailbreaking system by testing it with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated adversarial scenarios. The detection capabilities are strong such as 94\% accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities when under long attacks as prompt length increases attack success rates (ASR) and diversity metrics become ineffective in prediction while revealing multiple complex system faults. The findings demonstrate the necessity of adopting flexible security systems based on active monitoring that can be performed by the agents themselves together with adaptable interventions by system admin as the current models can create vulnerabilities that can lead to the unreliable and vulnerable system. So, in our work, we try to address such situations and propose a comprehensive framework to counteract the security issues.
- Abstract(参考訳): 大規模言語モデルを使用した自律型AIエージェントは、社会のあらゆる部分において決定不可能な価値を生み出すことができるが、信頼と安全性の問題が発生するため、即時保護ソリューションを保証する敵からのセキュリティ上の脅威に直面している。
多数発の脱獄と偽装アライメントを主要な先進的な攻撃として考慮し、監督訓練で使用される静的ガードレールによって緩和できないことを考えると、現実世界の堅牢性にとって重要な研究優先事項を指摘している。
動的マルチエージェントシステムにおける静的ガードレールの組み合わせは、これらの攻撃に対して防御に失敗する。
我々は, LLMをベースとしたエージェントのセキュリティを強化するため, 安全な運用運用の脅威を特定し, 対処する新たな評価フレームワークを開発する。
GEMINI 1.5 pro と llama-3.3-70B で試行し,ツールを介在する逆チューリングテストによるローグエージェントの検出と,マルチエージェントシミュレーションによる知覚的アライメントの解析,およびツールを用いた対向シナリオを用いた r1 モデルの深層探索によるアンチジェイルブレーキングシステムの開発を行った。
GEMINI 1.5の精度94\%など、検出能力は強いが、迅速な長さが攻撃成功率(ASR)を増大させ、多様性の指標が複数の複雑なシステム障害を明らかにしながら予測に有効でないため、システムは長期間の攻撃を受けると永続的な脆弱性に悩まされる。
この結果から,アクティブ監視に基づくフレキシブルなセキュリティシステムの採用の必要性が示唆された。現在のモデルでは,信頼性の低い脆弱性を発生させる可能性があるため,エージェント自体がシステム管理者による適応可能な介入を行うことが可能である。
そこで、我々の研究では、このような状況に対処し、セキュリティ問題に対処するための包括的なフレームワークを提案します。
関連論文リスト
- AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - BreachSeek: A Multi-Agent Automated Penetration Tester [0.0]
BreachSeekはAI駆動のマルチエージェントソフトウェアプラットフォームで、人間の介入なしに脆弱性を特定し、悪用する。
予備評価では、BreachSeekはローカルネットワーク内の悪用可能なマシンの脆弱性をうまく利用した。
今後の開発は、その能力を拡大し、サイバーセキュリティの専門家にとって欠かせないツールとして位置づけることを目指している。
論文 参考訳(メタデータ) (2024-08-31T19:15:38Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems [53.2306792009435]
我々はランダムフォレストとリカレントニューラルネットワークアーキテクチャに基づく2つの軽量ドライバ認証システムを開発した。
我々は,SMARTCANとGANCANという2つの新しいエスケープアタックを開発することで,これらのシステムに対する攻撃を最初に提案する。
コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。
論文 参考訳(メタデータ) (2023-06-09T14:33:26Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Invisible for both Camera and LiDAR: Security of Multi-Sensor Fusion
based Perception in Autonomous Driving Under Physical-World Attacks [62.923992740383966]
本稿では,MDFに基づくADシステムにおけるセキュリティ問題の最初の研究について述べる。
物理的に実現可能な逆3Dプリントオブジェクトを生成し、ADシステムが検出に失敗してクラッシュする。
以上の結果から,攻撃は様々なオブジェクトタイプおよびMSFに対して90%以上の成功率を達成した。
論文 参考訳(メタデータ) (2021-06-17T05:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。