論文の概要: Insider Attacks in Multi-Agent LLM Consensus Systems
- arxiv url: http://arxiv.org/abs/2605.08268v1
- Date: Fri, 08 May 2026 03:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.51651
- Title: Insider Attacks in Multi-Agent LLM Consensus Systems
- Title(参考訳): マルチエージェントLLMコンセンサスシステムにおけるインサイダー攻撃
- Authors: Xiaolin Sun, Zixuan Liu, Yibin Hu, Zizhan Zheng,
- Abstract要約: マルチエージェントコンセンサスシステムにおけるインサイダー操作について検討する。
そこで本稿では,良性エージェントの潜在行動状態上でのサロゲートダイナミクスを学習する世界モデルベースのフレームワークを提案する。
予備的な結果は、訓練された攻撃者は、良心的コンセンサス率を減らし、直接悪質なプロンプトベースラインよりも、より効果的に不一致を延長することを示している。
- 参考スコア(独自算出の注目度): 8.207909009186091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in multi-agent systems where agents communicate in natural language to solve tasks jointly. A key capability in such systems is consensus formation, where agents iteratively exchange messages and update decisions to reach a shared outcome. However, most existing multi-agent LLM frameworks assume that all participating agents are aligned with the system objective. In practice, a malicious insider may participate as a legitimate member of the group while pursuing a hidden adversarial goal. In this work, we study insider manipulation in multi-agent LLM consensus systems. We formalize the problem as a sequential decision-making task in which a malicious agent seeks to delay or prevent agreement among benign agents. To make attack optimization tractable, we propose a world-model-based framework that learns surrogate dynamics over the latent behavioral states of benign agents and then trains an attacker using reinforcement learning based on this learned model. Preliminary results show that the trained attacker reduces the benign consensus rate and prolongs disagreement more effectively than the direct malicious-prompt baseline. These results suggest that combining latent world models with reinforcement learning is a promising direction for adaptive insider attacks in language-based multi-agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エージェントが自然言語でコミュニケーションしてタスクを共同で解決するマルチエージェントシステムに、ますます多くデプロイされている。
このようなシステムにおける重要な機能はコンセンサス形成であり、エージェントはメッセージを反復的に交換し、決定を更新して共通の結果に達する。
しかしながら、既存のマルチエージェント LLM フレームワークの多くは、すべてのエージェントがシステム目標に一致していると仮定している。
実際には、悪意のあるインサイダーは、隠れた敵の目標を追求しながら、グループの正当なメンバーとして参加することができる。
本研究では,マルチエージェントLLMコンセンサスシステムにおけるインサイダー操作について検討する。
我々は、悪質なエージェントが良質なエージェント間の合意を遅らせたり阻止したりしようとする、シーケンシャルな意思決定タスクとして問題を定式化する。
攻撃最適化を実現するために,この学習モデルに基づく強化学習を用いて攻撃者を訓練し,良性エージェントの潜伏行動状態に対する代理ダイナミクスを学習するワールドモデルベースのフレームワークを提案する。
予備的な結果は、訓練された攻撃者は、良心的コンセンサス率を減らし、直接悪質なプロンプトベースラインよりも、より効果的に不一致を延長することを示している。
これらの結果は、言語ベースのマルチエージェントシステムにおいて、潜在世界モデルと強化学習を組み合わせることが、適応型インサイダー攻撃の有望な方向であることを示唆している。
関連論文リスト
- Learning Robust Social Strategies with Large Language Models [7.697496386429445]
強化学習は,大規模言語モデル(LLM)を単一エージェント体制で整列させるのに有効である。
マルチエージェント設定における標準RLは、しばしば欠陥のある自己関心のポリシーに収束することを示す。
RLが不均衡に収束する傾向に対処するため、近年の対向学習認識アルゴリズムAdvantage Alignmentを適用した。
論文 参考訳(メタデータ) (2025-11-24T18:43:46Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Red-Teaming LLM Multi-Agent Systems via Communication Attacks [10.872328358364776]
大規模言語モデルに基づくマルチエージェントシステム(LLM-MAS)は、メッセージベースのコミュニケーションを通じて高度なエージェント協調を可能にすることで、複雑な問題解決能力に革命をもたらした。
エージェント・イン・ザ・ミドル(AiTM, Agent-in-the-Middle)は、エージェント間メッセージのインターセプトと操作によってLLM-MASの基本的な通信機構を利用する新たな攻撃法である。
論文 参考訳(メタデータ) (2025-02-20T18:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。