論文の概要: Defending LLM-based Multi-Agent Systems Against Cooperative Attacks with Sentence-Level Rectification
- arxiv url: http://arxiv.org/abs/2605.28104v1
- Date: Wed, 27 May 2026 07:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.863687
- Title: Defending LLM-based Multi-Agent Systems Against Cooperative Attacks with Sentence-Level Rectification
- Title(参考訳): 文レベル整形による協調的攻撃に対するLLMに基づくマルチエージェントシステムの構築
- Authors: Yaoyang Luo, Zhi Zheng, Ziwei Zhao, Tong Xu, Zhao Jielun, Wenjun Xue, Yong Chen, Enhong Chen,
- Abstract要約: 大規模言語モデルに基づくマルチエージェントシステム(MAS)の悪意のあるエージェントは、誤情報を注入して他のエージェントを誤解させ、システム性能を損なう可能性がある。
本稿では,攻撃戦略を自律的に調整し,動的に調整する適応型協調攻撃フレームワークを提案する。
本稿では,エージェント通信における文レベルでのミスリード情報を識別・修正する防衛フレームワークであるSentence-Level Trustworthiness Analysis and Rectification(STAR)を紹介する。
- 参考スコア(独自算出の注目度): 42.88763759237844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed the rapid development of Large Language Model-based Multi-Agent Systems (MAS), which excel at collaborative decision-making and complex problem-solving. However, malicious agents in MAS may inject misinformation to mislead other agents and disrupt system performance, giving rise to a new research direction that focuses on attack mechanisms and defense strategies in MAS. Prior studies largely assume malicious agents act independently and investigate the corresponding defense strategies. However, we argue that malicious agents may exhibit collaborative behaviors, enabling more effective attacks through internal information exchange. In this paper, we propose an adaptive cooperative attack framework, where malicious agents autonomously coordinate and dynamically adjust their attack strategies through multi-round interactions. Furthermore, we introduce Sentence-Level Trustworthiness Analysis and Rectification (STAR), a defense framework that identifies and rectifies misleading information at the sentence level within agent communications. Our experiments show that cooperative attacks lead to a significantly larger degradation in task success rate than independent attacks, resulting in a relative drop of 5.34\%. Meanwhile, STAR effectively mitigates both cooperative and independent threats and improves task success rate by an average of 36.76\%. The code is available at https://github.com/smoooom/STAR.
- Abstract(参考訳): 近年,大規模言語モデルに基づくマルチエージェントシステム (MAS) の開発が急速に進んでいる。
しかし、MASの悪意のあるエージェントは、誤情報を注入して他のエージェントを誤解させ、システム性能を損なう可能性があるため、MASの攻撃機構と防衛戦略に焦点をあてる新たな研究方向がもたらされる。
従来の研究では、悪意のあるエージェントが独立して行動し、対応する防衛戦略を調査していた。
しかし、悪意のあるエージェントは協調行動を示す可能性があり、内部情報交換によるより効果的な攻撃を可能にする。
本稿では,多ラウンドインタラクションによる攻撃戦略を自律的に調整し,動的に調整する適応型協調攻撃フレームワークを提案する。
さらに,エージェント通信における文レベルにおけるミスリード情報を識別・修正する防衛フレームワークであるSentence-Level Trustworthiness Analysis and Rectification(STAR)を導入する。
実験の結果, 協調攻撃は, 単独攻撃よりもタスク成功率が大きく低下し, 相対的に5.34倍の低下がみられた。
一方STARは、協力的および独立的な脅威を効果的に軽減し、タスク成功率を平均36.766%向上させる。
コードはhttps://github.com/smoooom/STAR.comで公開されている。
関連論文リスト
- GroupGuard: A Framework for Modeling and Defending Collusive Attacks in Multi-Agent Systems [12.188883494965694]
グループガード(GroupGuard)は、多層防御戦略を用いて、癒着剤の識別と分離を行う、トレーニングフリーの防衛フレームワークである。
GroupGuardは、高い検出精度(最大88%)を一貫して達成し、協調的なパフォーマンスを効果的に回復する。
論文 参考訳(メタデータ) (2026-03-14T13:19:13Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence [41.14664289570607]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。