論文の概要: If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence
- arxiv url: http://arxiv.org/abs/2601.14351v1
- Date: Tue, 20 Jan 2026 17:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.116261
- Title: If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence
- Title(参考訳): コヒーレンスを望むなら、競争チームを編成する - 組織知性のマルチエージェントモデル
- Authors: Gopal Vijayaraghavan, Prasanth Jayachandran, Arun Murthy, Sunil Govindan, Vivek Subramanian,
- Abstract要約: 完全コンポーネントを得ることなく、不完全なコンポーネントを慎重にオーケストレーションすることで信頼性を実現することができることを示す。
本稿では,このようなシステムのアーキテクチャについて述べる。特殊エージェントチーム(プランナ,実行者,評論家,専門家)。
提案手法は,ユーザの露出前に90%以上の内部エラーインターセプションを達成し,許容可能なレイテンシトレードオフを維持していることを示す。
- 参考スコア(独自算出の注目度): 1.1637186977447433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI Agents can perform complex operations at great speed, but just like all the humans we have ever hired, their intelligence remains fallible. Miscommunications aren't noticed, systemic biases have no counter-action, and inner monologues are rarely written down. We did not come to fire them for their mistakes, but to hire them and provide a safe productive working environment. We posit that we can reuse a common corporate organizational structure: teams of independent AI agents with strict role boundaries can work with common goals, but opposing incentives. Multiple models serving as a team of rivals can catch and minimize errors within the final product at a small cost to the velocity of actions. In this paper we demonstrate that we can achieve reliability without acquiring perfect components, but through careful orchestration of imperfect ones. This paper describes the architecture of such a system in practice: specialized agent teams (planners, executors, critics, experts), organized into an organization with clear goals, coordinated through a remote code executor that keeps data transformations and tool invocations separate from reasoning models. Rather than agents directly calling tools and ingesting full responses, they write code that executes remotely; only relevant summaries return to agent context. By preventing raw data and tool outputs from contaminating context windows, the system maintains clean separation between perception (brains that plan and reason) and execution (hands that perform heavy data transformations and API calls). We demonstrate the approach achieves over 90% internal error interception prior to user exposure while maintaining acceptable latency tradeoffs. A survey from our traces shows that we only trade off cost and latency to achieve correctness and incrementally expand capabilities without impacting existing ones.
- Abstract(参考訳): AIエージェントは、非常に高速に複雑な操作を実行できるが、これまで雇用されたすべての人間と同じように、その知性は失敗する。
コミュニケーションのミスは気づかず、システムバイアスは反作用がなく、内部のモノローグはめったに書き下がらない。
彼らの過ちを犯しに来たのではなく、彼らを雇い、安全な生産的な作業環境を提供することにしました。
厳格な役割境界を持つ独立したAIエージェントのチームは、共通の目標で機能するが、インセンティブに反対する。
ライバルのチームとして機能する複数のモデルは、アクションの速度に小さなコストで最終製品内でエラーをキャッチし、最小化することができる。
本稿では,完全コンポーネントを得ることなく,不完全なコンポーネントを慎重にオーケストレーションすることで信頼性を実現することを実証する。
特殊なエージェントチーム(プランナー、実行者、批評家、専門家)は明確な目標を持った組織に組織され、データ変換とツールの実行を推論モデルから切り離すリモートコードエグゼキュータを通して調整される。
エージェントがツールを直接呼び出し、完全なレスポンスを取り込み、リモートで実行するコードを書くのではなく、関連する要約だけがエージェントコンテキストに返される。
生のデータやツール出力がコンテキストウィンドウを汚染することを防ぐことで、システムは知覚(計画と理由の脳)と実行(重いデータ変換とAPI呼び出しを実行する手)をきれいに分離する。
提案手法は,ユーザの露出前に90%以上の内部エラーインターセプションを達成し,許容可能なレイテンシのトレードオフを維持していることを示す。
私たちのトレースからの調査では、コストとレイテンシをトレードオフして、正確性を達成し、既存のものに影響を与えずに機能を漸進的に拡張する、という結果が出ています。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Async Control: Stress-testing Asynchronous Control Measures for LLM Agents [2.7146936326590425]
非同期モニタリングにおいて,モニタリングシステムがエージェントの動作を後回しにレビューする手法について検討する。
同期監視とは異なり、このアプローチは実行時のレイテンシを課すことなく、不可逆的な害が起こる前に攻撃を妨害しようとする。
私たちは、モニター開発を、ブルーチーム(モニターを設計する)とレッドチーム(破壊エージェントを作成する)の敵対的なゲームとして扱う。
論文 参考訳(メタデータ) (2025-12-15T16:56:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。
WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。