論文の概要: Can AI Models Direct Each Other? Organizational Structure as a Probe into Training Limitations
- arxiv url: http://arxiv.org/abs/2603.26458v1
- Date: Fri, 27 Mar 2026 14:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.53819
- Title: Can AI Models Direct Each Other? Organizational Structure as a Probe into Training Limitations
- Title(参考訳): AIモデルは相互に指示できるか? - トレーニングの限界へのプローブとしての組織構造
- Authors: Rui Liu,
- Abstract要約: ManagerWorkerは2エージェントのパイプラインで、高価な"マネージャ"モデルが問題を分析し、調査タスクをディスパッチし、実装をレビューする一方、安価な"ワーカー"モデルはコード変更を実行する。
SWE-bench Liteの200インスタンスに対して、マネージャ-ワーカー関係、パイプラインの複雑さ、モデルペアリングが異なる5つの構成で評価します。
- 参考スコア(独自算出の注目度): 3.303408763887703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can an expensive AI model effectively direct a cheap one to solve software engineering tasks? We study this question by introducing ManagerWorker, a two-agent pipeline where an expensive "manager" model (text-only, no code execution) analyzes issues, dispatches exploration tasks, and reviews implementations, while a cheap "worker" model (with full repo access) executes code changes. We evaluate on 200 instances from SWE-bench Lite across five configurations that vary the manager-worker relationship, pipeline complexity, and model pairing. Our findings reveal both the promise and the limits of multi-agent direction: (1) a strong manager directing a weak worker (62%) matches a strong single agent (60%) at a fraction of the strong-model token usage, showing that expensive reasoning can substitute for expensive execution; (2) a weak manager directing a weak worker (42%) performs worse than the weak agent alone (44%), demonstrating that the directing relationship requires a genuine capability gap--structure without substance is pure overhead; (3) the manager's value lies in directing, not merely reviewing--a minimal review-only loop adds just 2pp over the baseline, while structured exploration and planning add 11pp, showing that active direction is what makes the capability gap productive; and (4) these behaviors trace to a single root cause: current models are trained as monolithic agents, and splitting them into director/worker roles fights their training distribution. The pipeline succeeds by designing around this mismatch--keeping each model close to its trained mode (text generation for the manager, tool use for the worker) and externalizing organizational structure to code. This diagnosis points to concrete training gaps: delegation, scoped execution, and mode switching are skills absent from current training data.
- Abstract(参考訳): 高価なAIモデルは、ソフトウェアエンジニアリングの課題を解決するための安価なAIを効果的に導くことができるか?
高価な"マネージャ"モデル(テキストのみ、コード実行なし)が問題を分析し、調査タスクをディスパッチし、実装をレビューする一方で、安価な"ワーカー"モデル(完全なリポジトリアクセス付き)がコード変更を実行します。
SWE-bench Liteの200インスタンスに対して、マネージャ-ワーカー関係、パイプラインの複雑さ、モデルペアリングが異なる5つの構成で評価します。
その結果,(1)弱い労働者を指示する強い管理者(62%)は,強い単一エージェント(60%)と高い単一エージェント(60%)に一致し,高価な推論に代えてコストがかかること,(2)弱い労働者を指示する弱いマネージャ(42%)は,弱いエージェント単独(44%)よりも悪い処理を行うこと,(3)指示関係は,物質を含まない真の能力的ギャップ構造を必要とすること,(3)最小限のレビュー専用ループがベースライン上でわずか2ppしか加算されないこと,(3)構造的探索と計画が111ppに留まること,(4) 有効方向が,そのギャップを生産する要因であることを示すこと,(4) これらの行動は,モノリシックモデルがトレーニング対象のエージェントとして訓練されること,の3つ,などを明らかにした。
パイプラインは、このミスマッチを回避して、トレーニングされたモード(マネージャのテキスト生成、ワーカーのツール使用)に近い各モデルをメンテナンスし、コードに組織構造を外部化する。
この診断は、デリゲート、スコープ化実行、モード切替といった具体的なトレーニングギャップが、現在のトレーニングデータから欠落していることを指摘する。
関連論文リスト
- The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments [0.11586753333439907]
本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
我々の分析によると、実世界の展開にはモデルがマスターしなければならないエージェント機能の経験的に派生した階層構造が明らかになっている。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
論文 参考訳(メタデータ) (2026-01-13T23:49:06Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。