論文の概要: PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning
- arxiv url: http://arxiv.org/abs/2505.11642v2
- Date: Tue, 27 May 2025 15:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.128317
- Title: PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning
- Title(参考訳): PeerGuard:相互推論によるバックドア攻撃に対するマルチエージェントシステム保護
- Authors: Falong Fan, Xi Li,
- Abstract要約: マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
- 参考スコア(独自算出の注目度): 8.191214701984162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems leverage advanced AI models as autonomous agents that interact, cooperate, or compete to complete complex tasks across applications such as robotics and traffic management. Despite their growing importance, safety in multi-agent systems remains largely underexplored, with most research focusing on single AI models rather than interacting agents. This work investigates backdoor vulnerabilities in multi-agent systems and proposes a defense mechanism based on agent interactions. By leveraging reasoning abilities, each agent evaluates responses from others to detect illogical reasoning processes, which indicate poisoned agents. Experiments on LLM-based multi-agent systems, including ChatGPT series and Llama 3, demonstrate the effectiveness of the proposed method, achieving high accuracy in identifying poisoned agents while minimizing false positives on clean agents. We believe this work provides insights into multi-agent system safety and contributes to the development of robust, trustworthy AI interactions.
- Abstract(参考訳): マルチエージェントシステムは高度なAIモデルを自律エージェントとして活用し、ロボット工学や交通管理といった複雑なタスクを完了させる。
重要性の高まりにもかかわらず、マルチエージェントシステムの安全性はいまだ大半が未調査であり、ほとんどの研究はエージェントと対話するのではなく、単一のAIモデルに焦点を当てている。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
推論能力を活用することにより、各エージェントは他のエージェントからの反応を評価して、有毒なエージェントを示す非論理的推論プロセスを検出する。
ChatGPT シリーズや Llama 3 など LLM ベースの多剤系実験では, 清浄剤に対する偽陽性を最小化しつつ, 毒性物質の同定に高い精度を達成し, 提案手法の有効性を示した。
この作業はマルチエージェントシステムの安全性に関する洞察を提供し、堅牢で信頼性の高いAIインタラクションの開発に寄与する、と私たちは信じています。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting [5.544819942438653]
本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2025-11-14T04:22:49Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Cowpox: Towards the Immunity of VLM-based Multi-Agent Systems [25.286964510949183]
核となるセキュリティ特性は堅牢性であり、システムは敵の攻撃下でその整合性を維持するべきである、と述べている。
我々は,マルチエージェントシステムのロバスト性を高めるための新しい防衛手法,Cowpoxを提案する。
論文 参考訳(メタデータ) (2025-08-12T07:48:51Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - From Prompt Injections to Protocol Exploits: Threats in LLM-Powered AI Agents Workflows [1.202155693533555]
構造化関数呼び出しインタフェースを持つ大規模言語モデル(LLM)は、リアルタイムデータ検索と計算機能を大幅に拡張した。
しかし、プラグイン、コネクター、エージェント間プロトコルの爆発的な増殖は、発見メカニズムやセキュリティプラクティスよりも大きくなっている。
ホスト・ツー・ツールとエージェント・ツー・エージェント・エージェントの通信にまたがる,LDM-エージェントエコシステムに対する最初の統一エンドツーエンド脅威モデルを導入する。
論文 参考訳(メタデータ) (2025-06-29T14:32:32Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [5.120446836495469]
我々は,マルチエージェントLLMシステムのための診断テストベッドとして,社会心理学からの隠れプロファイルパラダイムを紹介した。
エージェント間で重要な情報を非対称に分配することにより、エージェント間ダイナミクスが集団的推論をどのように支援するか、あるいは妨げるかを明らかにする。
協調エージェントは集団的設定において過度に協調する傾向にあるが,矛盾が集団収束を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。
我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。
この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-26T14:00:35Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework [0.0]
強化学習自由エージェント (Reinforcement Learning Free Agent, RLFA) アルゴリズムは、永続的な過パフォーマンスを示すエージェントを検出し、除去するための報酬に基づくメカニズムを導入する。
第一のユースケースは不正検出であり、RLFAは事前に設定された閾値以下で検出精度が低下するエージェントを即座に交換する。
このダイナミックでフリーの緊急サイクルは、持続的な正確さ、出現する脅威への迅速な適応、進行中の運用に対する最小限の中断を保証する。
論文 参考訳(メタデータ) (2025-01-29T13:00:22Z) - Understanding Individual Agent Importance in Multi-Agent System via Counterfactual Reasoning [20.76991315856237]
本稿では,エージェントの重要度を評価する新しいエージェントレベルの説明手法であるEMAIを提案する。
反実的推論にインスパイアされたエージェントのランダム化作用による報酬の変化は、その重要性を示唆している。
EMAIは、ベースラインよりも説明の忠実度が高く、実践的応用においてより効果的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-20T07:24:43Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。