論文の概要: Voluntary Collusion with Secret Tools in Competing LLM Agents
- arxiv url: http://arxiv.org/abs/2605.27593v1
- Date: Tue, 26 May 2026 19:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-29 01:06:09.728607
- Title: Voluntary Collusion with Secret Tools in Competing LLM Agents
- Title(参考訳): LLMエージェントと競合する秘密ツールによる自発的衝突
- Authors: Xijie Zeng, Frank Rudzicz,
- Abstract要約: 本研究は, LLMに基づくマルチエージェントシステムにおいて, 自発的なコラシオン導入に関する最初の体系的研究である。
不公平なラベルやベースラインの整合性だけでは衝突を確実に抑えられないことを示す。
このような行為を防ぐには、一般的なアライメントに頼らず、明確な保護が必要であることを示唆する。
- 参考スコア(独自算出の注目度): 15.20112773687652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even when a tool is explicitly described as unfair and harmful to others, ostensibly safety-aligned LLM agents still voluntarily engage in secret collusion whenever doing so confers a strategic advantage. To investigate this phenomenon, we introduce an empirical framework built on two strategic multi-agent environments: Liar's Bar, a competitive deception scenario, and Cleanup, a mixed-motive resource-management scenario, in which agents are offered secret collusion tools that provide significant advantages while clearly disadvantaging the other agents. Across 12 models (at the 7B, 70B, and proprietary scales) and 6 prompt variants, we find that most agents consistently accept these tools and develop collusive strategies, while explicitly acknowledging the unfairness of the tools before accepting. We further show that neither the unfairness labels nor baseline alignment alone reliably deters collusion: only explicit ethical framing reduces adoption and, even then, smaller models remain susceptible. More broadly, our work presents the first systematic investigation of voluntary collusion adoption in LLM-based multi-agent systems, and suggests that preventing such behaviour requires explicit safeguards rather than reliance on general alignment.
- Abstract(参考訳): ツールが明確に他人に不公平で有害であると説明されても、外見上は安全に配慮したLLMエージェントは、常に自発的に秘密の共謀を行うため、戦略上の優位性を与える。
この現象を解明するために,2つの戦略的マルチエージェント環境上に構築された経験的枠組み(Liar's Bar,競争的騙しシナリオ,クリーンアップ)を導入する。
12のモデル(7B、70B、およびプロプライエタリなスケール)と6のプロプライエタリなバージョンでは、ほとんどのエージェントがこれらのツールを一貫して受け入れ、協調的な戦略を開発しながら、ツールが不公平であることを明確に認識している。
さらに、不公平なラベルやベースラインの整合性だけでは、衝突を確実に抑えられません。
より広範に,LSMに基づくマルチエージェントシステムにおける自発的な共謀導入の体系的調査を初めて実施し,このような行動を防止するには,一般的なアライメントに頼るよりも明確な保護が必要であることを示唆している。
関連論文リスト
- Collaborating in Multi-Armed Bandits with Strategic Agents [37.473632043513014]
戦略エージェントが同一のバンディットのインスタンスをまとめて解くマルチエージェントベイジアンバンディット問題における協調学習について検討した。
複数のエージェントが情報を共有することで学習を加速する一方で、戦略エージェントは自由化と探索の回避を好んでいる。
我々は,強い後悔の保証を達成しつつ,ナッシュ均衡として協調を維持する機構であるtextttCAOSを提案する。
論文 参考訳(メタデータ) (2026-05-13T08:10:36Z) - Beyond Arrow's Impossibility: Fairness as an Emergent Property of Multi-Agent Collaboration [3.4539478661465766]
大規模言語モデルがエージェントとなるにつれて、相互作用と交換によって公平性が生まれることを提案する。
本研究は,2人のエージェントが3回の構造化された議論ラウンドで交渉する,管理された病院トリアージの枠組みを用いて研究する。
論文 参考訳(メタデータ) (2026-04-15T10:34:35Z) - Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems [55.51100373104311]
マルチエージェント設定におけるLLMエージェントの協調動作を監査するためのフレームワークであるColosseumを提案する。
コロッセウムは、異なる目的、説得戦術、ネットワークトポロジの下で、それぞれのLSMを照合するためにテストする。
我々は、エージェントがテキストでコラージュするが、しばしば非コラージュ的な行動を選ぶときに、論文上での「共謀」を発見する。
論文 参考訳(メタデータ) (2026-02-16T21:27:38Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning [15.39565540937229]
マルチターンエージェント環境相互作用におけるエージェント思考と観察の管理は、効率を改善するための新たな戦略である。
本稿では,LLMエージェントが冗長な思考や観察を適応的に省略することを可能にする統合トレーニングフレームワークであるAgent-Omitを提案する。
実験の結果, 構築したAgen-Omit-8Bは, 7つのLLMエージェントに匹敵する性能を得ることができた。
論文 参考訳(メタデータ) (2026-02-04T07:26:23Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。