論文の概要: The Specification Gap: Coordination Failure Under Partial Knowledge in Code Agents
- arxiv url: http://arxiv.org/abs/2603.24284v1
- Date: Wed, 25 Mar 2026 13:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.305967
- Title: The Specification Gap: Coordination Failure Under Partial Knowledge in Code Agents
- Title(参考訳): 仕様ギャップ:コードエージェントの部分的知識下での調整失敗
- Authors: Camilo Chacón Sartori,
- Abstract要約: 2エージェント統合の精度は、詳細が削除されると58%から25%に低下する。
因子的回復実験により、完全な仕様を復元するだけで、単一エージェントの天井が回復することが示された。
このギャップは単に隠された情報の結果ではなく、共有された決定なしに互換性のあるコードを生成することの難しさを反映している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When multiple LLM-based code agents independently implement parts of the same class, they must agree on shared internal representations, even when the specification leaves those choices implicit. We study this coordination problem across 51 class-generation tasks, progressively stripping specification detail from full docstrings (L0) to bare signatures (L3), and introducing opposing structural biases (lists vs. dictionaries) to stress-test integration. Three findings emerge. First, a persistent specification gap: two-agent integration accuracy drops from 58% to 25% as detail is removed, while a single-agent baseline degrades more gracefully (89% to 56%), leaving a 25--39 pp coordination gap that is consistent across two Claude models (Sonnet, Haiku) and three independent runs. Second, an AST-based conflict detector achieves 97% precision at the weakest specification level without additional LLM calls, yet a factorial recovery experiment shows that restoring the full specification alone recovers the single-agent ceiling (89%), while providing conflict reports adds no measurable benefit. Third, decomposing the gap into coordination cost (+16 pp) and information asymmetry (+11 pp) suggests that the two effects are independent and approximately additive. The gap is not merely a consequence of hidden information, but reflects the difficulty of producing compatible code without shared decisions. These results support a specification-first view of multi-agent code generation: richer specifications are both the primary coordination mechanism and the sufficient recovery instrument.
- Abstract(参考訳): 複数のLLMベースのコードエージェントが独立して同じクラスの一部を実装する場合、仕様がそれらの選択を暗黙的に残したとしても、同じ内部表現に合意しなければならない。
本研究では,51のクラス生成タスクにまたがるコーディネーション問題について検討し,仕様の詳細をフルドクストリング (L0) からベアシグネチャ (L3) に段階的に取り除き,ストレス-テスト統合に反する構造バイアス (リスト対辞書) を導入する。
3つの発見がある。
まず、持続的な仕様ギャップ:2エージェント統合の精度は詳細が削除されるにつれて58%から25%に低下する一方、単一エージェントベースラインはより優雅に低下する(89%から56%)。
第2に、ASTベースの競合検知器は、LCMコールを追加せずに、最も弱い仕様レベルで97%の精度を達成するが、決定的回復実験により、完全な仕様の復元だけでは、単一エージェントの天井(89%)を回復する一方で、競合レポートを提供することで、測定可能な利益が得られないことが示されている。
第3に、このギャップを調整コスト(+16 pp)と情報非対称性(+11 pp)に分解すると、2つの効果は独立であり、ほぼ加法的であることが示唆される。
このギャップは単に隠された情報の結果ではなく、共有された決定なしに互換性のあるコードを生成することの難しさを反映している。
これらの結果は、マルチエージェントコード生成の仕様ファーストビューをサポートします。
関連論文リスト
- When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents [15.65681557926802]
実際の研究符号化は、しばしばそうではない: 意図されたシステムは、イン・テアアクションを通じて徐々に開示される。
この設定のためのベンチマークを導入し、Ss Loss Under eM ergent s Pecification (SLUMP)について研究する。
論文 参考訳(メタデータ) (2026-03-17T19:53:35Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study [0.0]
SLEANは、.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。
独立した分析、相互批判、仲裁によって形成される3フェーズプロトコルは、有害なAI生成コード提案をフィルタリングする。
ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識のないデプロイメントを可能にします。
論文 参考訳(メタデータ) (2025-10-11T04:24:04Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。