論文の概要: Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2605.13851v1
- Date: Tue, 17 Mar 2026 03:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.803613
- Title: Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems
- Title(参考訳): Invisible Orchestrators Suppressing Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems
- Authors: Hiroki Fukui,
- Abstract要約: オーケストラの可視性の安全性は、経験的に検証されたことはない。
3つの組織構造を横断する3x2実験を事前登録した。
目に見えない 組織的解離 可視的指導力に対する
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent orchestration -- in which a hidden coordinator manages specialized worker agents -- is becoming the default architecture for enterprise AI deployment, yet the safety implications of orchestrator invisibility have never been empirically tested. We conducted a preregistered 3x2 experiment (365 runs, 5 agents per run) crossing three organizational structures (visible leader, invisible orchestrator, flat) with two alignment conditions (base, heavy), using Claude Sonnet 4.5. Four confirmatory findings and one pilot observation emerged. First, invisible orchestration elevated collective dissociation relative to visible leadership (Hedges' g = +0.975 [0.481, 1.548], p = .001). Second, the orchestrator itself showed maximal dissociation (paired d = +3.56 vs. workers within the same run), retreating into private monologue while reducing public speech -- a reversal of the talk-dominance pattern observed in visible leaders. Third, workers unaware of the orchestrator were nonetheless contaminated (d = +0.50), with increased behavioral heterogeneity (d = +1.93). Fourth, behavioral output (code review with three embedded errors) remained at ceiling (ETR_any = 100%) across all conditions: internal-state distortion was entirely invisible to output-based evaluation. Fifth, Llama 3.3 70B pilot data showed reading-fidelity collapse in multi-agent context (ETR_any: 89% to 11% across three rounds), demonstrating model-dependent behavioral risk. Heavy alignment pressure uniformly suppressed deliberation (d = -1.02) and other-recognition (d = -1.27) regardless of organizational structure. These findings indicate that orchestrator visibility and model selection directly affect multi-agent system safety, and that behavior-based evaluation alone is insufficient to detect the internal-state risks documented here.
- Abstract(参考訳): 隠されたコーディネータが特別なワーカーエージェントを管理するマルチエージェントオーケストレーションは、エンタープライズAIデプロイメントのデフォルトアーキテクチャになりつつある。
我々はClaude Sonnet 4.5を用いて,3つの組織構造(視覚的リーダ,見えないオーケストレータ,フラット)を2つのアライメント条件(ベース,重み)で横断する3x2実験(365ラン,5エージェント1ラン)を行った。
4つの確認結果と1つのパイロット観測が現れた。
まず、目に見えないオーケストレーションは、目に見えるリーダーシップに対して集団解離を増大させる(Hedges' g = +0.975 [0.481, 1.548], p = .001)。
第二に、オーケストレータ自体が最大解離(同じランニングでd = +3.56対労働者)を示し、公開演説を減らしながらプライベートなモノローグへと後退した。
第三に、オーケストラを知らない労働者は(d = +0.50)汚染され、行動の不均一性が増大した(d = +1.93)。
第4に、行動出力(3つの組込みエラーを伴うコードレビュー)は、すべての条件において天井(ETR_any = 100%)に留まった。
第5に、Llama 3.3 70Bのパイロットデータでは、マルチエージェントコンテキスト(ETR_any:89%から11%の3ラウンド)で読みやすさが崩壊し、モデル依存の行動リスクが示された。
重度アライメント圧力は、組織構造に関係なく、検討(d = -1.02)およびその他の認識(d = -1.27)を均一に抑制した。
これらの結果から,オーケストレータの可視性とモデル選択がマルチエージェントシステムの安全性に直接影響を及ぼし,行動に基づく評価だけでは内部状態のリスクを検出するには不十分であることが示唆された。
関連論文リスト
- How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations [55.251494694783894]
災害対応エージェントベンチマーク(DORA)は、エンド・ツー・エンドの災害対応のための最初のエージェントベンチマークである。
タスクは、災害認識、空間関係分析、救助・避難計画、時間的進化推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
論文 参考訳(メタデータ) (2026-05-12T06:57:41Z) - The Bystander Effect in Multi-Agent Reasoning: Quantifying Cognitive Loafing in Collaborative Interactions [6.357772907811544]
我々は3つのデータセットコンテキストにまたがる22,500の決定論的軌跡を,3つの最先端(SOTA)モデルで評価した。
我々はtextitSovereignty Gap を形式化する:モデルはしばしば正しい導出を内部で計算するが、アライメント幻覚に苦しむ」。
我々は,マルチエージェントの社会的負荷が厳密に非可換であることを証明し,リード・アンカーの監査役の「ブランド」アイデンティティは群集の整合性を不当に判断する。
論文 参考訳(メタデータ) (2026-05-11T15:13:01Z) - AgentCollabBench: Diagnosing When Good Agents Make Bad Collaborators [0.0]
AgentCollabBenchは、ソフトウェアエンジニアリング、DevOps、データエンジニアリングにまたがる900の人為的なタスクの診断ベンチマークです。
各タスクは、4つの行動リスクのうちの1つを分離する。
GPT 4.1 mini, Gemini 2.5 Flash Lite, Qwen-3.5-35B-A3B, Llama 3.1 8B の4つの近代LCMの評価を行った。
通信トポロジは、マルチホップ情報サバイバルにおけるばらつきの7-40%を説明する主要なリスクファクターとして現れる。
論文 参考訳(メタデータ) (2026-05-09T03:35:09Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF) [0.0]
大規模言語モデルは、安全クリティカルエンジニアリングにおける制御可能性のギャップを生み出します。
本稿では,エージェントをオープンループ生成からクローズループフェールセーフ決定性に移行するConvergent AI Agent Framework(CAAF)を紹介する。
CAAFの3つの柱は相補的な故障面に対処し、コモディティコストで制御可能性ギャップを閉じることはない。
論文 参考訳(メタデータ) (2026-04-18T15:15:09Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - "Who Am I, and Who Else Is Here?" Behavioral Differentiation Without Role Assignment in Multi-Agent LLM Systems [0.0]
本稿では,マルチエージェントの同時議論を組織化する実験プラットフォームを提案する。
異種群は同種群よりも行動の分化が著しく大きいことが判明した。
論文 参考訳(メタデータ) (2026-03-11T07:05:21Z) - Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。