論文の概要: When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents
- arxiv url: http://arxiv.org/abs/2603.17104v1
- Date: Tue, 17 Mar 2026 19:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.377175
- Title: When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents
- Title(参考訳): 仕様の創出: 長距離符号化エージェントにおける忠実度損失のベンチマーク
- Authors: Lu Yan, Xuan Chen, Xiangyu Zhang,
- Abstract要約: 実際の研究符号化は、しばしばそうではない: 意図されたシステムは、イン・テアアクションを通じて徐々に開示される。
この設定のためのベンチマークを導入し、Ss Loss Under eM ergent s Pecification (SLUMP)について研究する。
- 参考スコア(独自算出の注目度): 15.65681557926802
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current coding-agent benchmarks usually pro- vide the full task specification upfront. Real research coding often does not: the intended system is progressively disclosed through in- teraction, requiring the agent to track durable design commitments across a long session. We introduce a benchmark for this setting and study faithfulne Ss Loss U nder eM ergent s Pecification (SLUMP), defined as the reduc- tion in final implementation faithfulness un- der emergent specification relative to a single- shot specification control. The benchmark con- tains 20 recent ML papers (10 ICML 2025, 10 NeurIPS 2025), 371 atomic verifiable compo- nents, and interaction scripts of approximately 60 coding requests that progressively disclose the target design without revealing the paper itself. Final repositories are scored with a five-level component-faithfulness rubric and accompanied by an exposure audit to verify that scored components are recoverable from the visible interaction. Evaluated on Claude Code and Codex, the single-shot specification control achieves higher overall implementation fidelity on 16/20 and 14/20 papers, respectively. Structural integration degrades under emergent specification on both platforms, while seman- tic faithfulness loss is substantial on Claude Code and small on Codex. As a mitigation case study, we introduce ProjectGuard, an exter- nal project-state layer for specification tracking. On Claude Code, ProjectGuard recovers 90% of the faithfulness gap, increases fully faith- ful components from 118 to 181, and reduces severe failures from 72 to 49. These results identify specification tracking as a distinct eval- uation target for long-horizon coding agents.
- Abstract(参考訳): 現在のコーディングエージェントベンチマークは、通常、タスクの完全な仕様を前もって更新する。
意図されたシステムは段階的に内部で開示され、エージェントは長いセッションを通して耐久性のある設計のコミットメントを追跡する必要がある。
本稿では、この設定のためのベンチマークを導入し、単一ショットの仕様制御に比較して、最終的な実装における再定義として定義されたSs Loss Under eM ergent s Pecification (SLUMP)について検討する。
このベンチマークは、最近の20のML論文(10 ICML 2025, 10 NeurIPS 2025)、371の原子検証可能なコンポ-ナント、約60のコーディング要求のインタラクションスクリプトをまとめている。
最終レポジトリは5段階のコンポーネントフェースフルネスルーブリックでスコアされ、露出監査を伴って、スコアされたコンポーネントが可視的相互作用から回復可能であることを確認する。
Claude CodeとCodexで評価すると、シングルショットの仕様管理は、それぞれ16/20論文と14/20論文の総合的な実装忠実性を達成する。
一方、セマンティックな忠実さの喪失はClaude Codeで大きく、Codexでは小さい。
緩和事例として,仕様追跡のためのプロジェクト・ステート・レイヤであるProjectGuardを紹介する。
Claude Codeでは、ProjectGuardは忠実さギャップの90%を回復し、118から181まで完全に忠実なコンポーネントを増やし、重大な障害を72から49に削減している。
これらの結果から,仕様追跡を長期符号化エージェントの異なるeval-uationターゲットとして同定した。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients [1.711666249985278]
SPECAは、標準要件をチェックリストに変換する仕様からChecklistフレームワークである。
SPECAは,11社を対象とし,フサカアップグレードのセキュリティ監査コンテストの会場内でインスタンス化を行う。
我々の改善されたエージェントは、競争監査の基礎的真実に対して評価され、高影響の脆弱性について27.3%の厳格なリコールを達成した。
論文 参考訳(メタデータ) (2026-02-07T12:19:00Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z) - Hybrid-Code: A Privacy-Preserving, Redundant Multi-Agent Framework for Reliable Local Clinical Coding [0.0]
クラウドベースのLarge Language Models(LLM)を使用した臨床コーディング自動化は、プライバシのリスクとレイテンシのボトルネックを引き起こす。
局所的な臨床コーディングのためのハイブリッド・ニューロシンボリック・マルチエージェント・フレームワークであるHybrid-Codeを導入する。
論文 参考訳(メタデータ) (2025-12-26T02:27:36Z) - Leveraging Code Cohesion Analysis to Identify Source Code Supply Chain Attacks [4.875767567748654]
サプライチェーン攻撃は、正当なプロジェクト内で悪意のあるコードインジェクションによって、ソフトウェアのセキュリティを著しく脅かす。
本稿では,ソースコードの凝集破壊を定量化することにより,スプリアスコードインジェクションの強調のための教師なしアプローチを提案する。
369のオープンソースC++レポジトリに対する54,707の関数の解析により、コードインジェクションが凝集を減少させることが明らかになった。
論文 参考訳(メタデータ) (2025-10-16T15:14:04Z) - VERINA: Benchmarking Verifiable Code Generation [46.582574591358735]
大規模言語モデル(LLM)は、ソフトウェア開発にますます統合されている。
LLM生成コードの正確性を保証することは依然として困難である。
検証可能なコード生成は、この制限に対処するための有望なパスを提供する。
論文 参考訳(メタデータ) (2025-05-29T06:12:52Z) - Towards Exception Safety Code Generation with Intermediate Representation Agents Framework [54.03528377384397]
大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。
中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。
Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。