論文の概要: SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection
- arxiv url: http://arxiv.org/abs/2510.16219v2
- Date: Tue, 21 Oct 2025 12:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.736741
- Title: SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection
- Title(参考訳): SentinelNet: クレジットベースの動的脅威検出によるマルチエージェントコラボレーションの保護
- Authors: Yang Feng, Xudong Pan,
- Abstract要約: 大規模言語モデル(LLM)を用いたマルチエージェントシステム(MAS)の信頼性と意思決定能力に悪質なエージェントが重大な脅威をもたらす
マルチエージェントコラボレーションにおいて,悪意ある動作を積極的に検出・緩和する,最初の分散化フレームワークであるSentinelNetを提案する。
MASベンチマークの実験では、SentinelNetは2回の討論ラウンドで100%近く、悪意のあるエージェントのほぼ完全な検出を実現し、漏洩したベースラインからシステム精度の95%を回復している。
- 参考スコア(独自算出の注目度): 22.242243610133215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious agents pose significant threats to the reliability and decision-making capabilities of Multi-Agent Systems (MAS) powered by Large Language Models (LLMs). Existing defenses often fall short due to reactive designs or centralized architectures which may introduce single points of failure. To address these challenges, we propose SentinelNet, the first decentralized framework for proactively detecting and mitigating malicious behaviors in multi-agent collaboration. SentinelNet equips each agent with a credit-based detector trained via contrastive learning on augmented adversarial debate trajectories, enabling autonomous evaluation of message credibility and dynamic neighbor ranking via bottom-k elimination to suppress malicious communications. To overcome the scarcity of attack data, it generates adversarial trajectories simulating diverse threats, ensuring robust training. Experiments on MAS benchmarks show SentinelNet achieves near-perfect detection of malicious agents, close to 100% within two debate rounds, and recovers 95% of system accuracy from compromised baselines. By exhibiting strong generalizability across domains and attack patterns, SentinelNet establishes a novel paradigm for safeguarding collaborative MAS.
- Abstract(参考訳): 悪意のあるエージェントは、LLM(Large Language Models)を利用したマルチエージェントシステム(MAS)の信頼性と意思決定能力に重大な脅威をもたらす。
既存の防御は、リアクティブ設計や単一障害点を生じさせるような集中型アーキテクチャのために、しばしば不足する。
これらの課題に対処するため,マルチエージェントコラボレーションにおいて悪意ある行動を積極的に検出・緩和する,最初の分散フレームワークであるSentinelNetを提案する。
SentinelNetは、強化された敵の議論軌跡に関する対照的な学習を通じて訓練された信用ベースの検出器を各エージェントに装備し、ボトムk除去によるメッセージ信頼性と動的隣人ランキングの自律的評価を可能にし、悪意のある通信を抑える。
攻撃データの不足を克服するため、多様な脅威をシミュレートする敵の軌道を生成し、堅牢な訓練を確実にする。
MASベンチマークの実験では、SentinelNetは2回の討論ラウンドで100%近く、悪意のあるエージェントのほぼ完全な検出を実現し、漏洩したベースラインからシステム精度の95%を回復している。
SentinelNetは、ドメインと攻撃パターンをまたいだ強力な一般化性を示すことによって、協調MASを保護するための新しいパラダイムを確立している。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。