論文の概要: Can an Individual Manipulate the Collective Decisions of Multi-Agents?
- arxiv url: http://arxiv.org/abs/2509.16494v1
- Date: Sat, 20 Sep 2025 01:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.820288
- Title: Can an Individual Manipulate the Collective Decisions of Multi-Agents?
- Title(参考訳): 個人は多エージェントの集合決定を操作できるか?
- Authors: Fengyuan Liu, Rui Zhao, Shuo Chen, Guohao Li, Philip Torr, Lei Han, Jindong Gu,
- Abstract要約: M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
- 参考スコア(独自算出の注目度): 53.01767232004823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individual Large Language Models (LLMs) have demonstrated significant capabilities across various domains, such as healthcare and law. Recent studies also show that coordinated multi-agent systems exhibit enhanced decision-making and reasoning abilities through collaboration. However, due to the vulnerabilities of individual LLMs and the difficulty of accessing all agents in a multi-agent system, a key question arises: If attackers only know one agent, could they still generate adversarial samples capable of misleading the collective decision? To explore this question, we formulate it as a game with incomplete information, where attackers know only one target agent and lack knowledge of the other agents in the system. With this formulation, we propose M-Spoiler, a framework that simulates agent interactions within a multi-agent system to generate adversarial samples. These samples are then used to manipulate the target agent in the target system, misleading the system's collaborative decision-making process. More specifically, M-Spoiler introduces a stubborn agent that actively aids in optimizing adversarial samples by simulating potential stubborn responses from agents in the target system. This enhances the effectiveness of the generated adversarial samples in misleading the system. Through extensive experiments across various tasks, our findings confirm the risks posed by the knowledge of an individual agent in multi-agent systems and demonstrate the effectiveness of our framework. We also explore several defense mechanisms, showing that our proposed attack framework remains more potent than baselines, underscoring the need for further research into defensive strategies.
- Abstract(参考訳): 個々の大規模言語モデル(LLM)は、医療や法律など、さまざまな領域で重要な機能を示している。
近年の研究では、協調型マルチエージェントシステムでは、協調による意思決定と推論能力の向上が示されている。
しかし、個々のLSMの脆弱性とマルチエージェントシステムですべてのエージェントにアクセスするのが難しいため、重要な疑問が生じる。
この問題を探索するために,攻撃者は1つのターゲットエージェントのみを知っており,システム内の他のエージェントの知識を欠く不完全な情報を持つゲームとして定式化する。
この定式化により、M-Spoilerはマルチエージェントシステム内のエージェント相互作用をシミュレートして、逆サンプルを生成するフレームワークである。
これらのサンプルは、ターゲットシステムのターゲットエージェントを操作するために使用され、システムの協調的な意思決定プロセスを誤解させる。
より具体的には、M-Spoilerは、標的系のエージェントからの潜在的スタブボーン応答をシミュレートすることによって、敵のサンプルの最適化を積極的に支援するスタブボーン剤を導入している。
これにより, 生成した逆数サンプルの有効性が向上する。
本研究は,多エージェントシステムにおける個々のエージェントの知識がもたらすリスクを検証し,フレームワークの有効性を実証する。
また,防衛戦略のさらなる研究の必要性を浮き彫りにしながら,本提案の攻撃機構がベースラインよりも強力であることを示すため,いくつかの防衛機構についても検討する。
関連論文リスト
- Cowpox: Towards the Immunity of VLM-based Multi-Agent Systems [25.286964510949183]
核となるセキュリティ特性は堅牢性であり、システムは敵の攻撃下でその整合性を維持するべきである、と述べている。
我々は,マルチエージェントシステムのロバスト性を高めるための新しい防衛手法,Cowpoxを提案する。
論文 参考訳(メタデータ) (2025-08-12T07:48:51Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Demonstrations of Integrity Attacks in Multi-Agent Systems [7.640342064257848]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、システムの中核機能を破壊しずに自己利益を提供する悪意のあるエージェントに対して脆弱である可能性がある。
この研究は、悪意のあるエージェントが微妙なプロンプト操作を使用してバイアスMAS操作を行ない、様々な利益を得る、完全性攻撃を探索する。
論文 参考訳(メタデータ) (2025-06-05T02:44:49Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [5.120446836495469]
我々は,マルチエージェントLLMシステムのための診断テストベッドとして,社会心理学からの隠れプロファイルパラダイムを紹介した。
エージェント間で重要な情報を非対称に分配することにより、エージェント間ダイナミクスが集団的推論をどのように支援するか、あるいは妨げるかを明らかにする。
協調エージェントは集団的設定において過度に協調する傾向にあるが,矛盾が集団収束を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。