論文の概要: Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits
- arxiv url: http://arxiv.org/abs/2603.27745v1
- Date: Sun, 29 Mar 2026 15:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.097668
- Title: Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits
- Title(参考訳): リポジトリの必要: AI生成リポジトリ編集における保守性ベンチマーク
- Authors: Haichao Zhu, Qian Zhang, Jiyuan Wang, Zhaorui Yang, Yuxin Qiu,
- Abstract要約: Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するためのフレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さな、現実的なマルチファイルに埋め込まれた制御されたプローブに蒸留する。
GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
- 参考スコア(独自算出の注目度): 3.9532936038777144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI coding agents can now complete complex programming tasks, but existing evaluations largely emphasize behavioral correctness and often overlook maintainability risks such as weak modularity or testability. We present Needle in the Repo (NITR), a diagnostic probe-and-oracle framework for evaluating whether behaviorally correct repository edits preserve maintainable structure. NITR distills recurring software engineering wisdom into controlled probes embedded in small, realistic multi-file codebases, each designed so that success depends primarily on one targeted maintainability dimension. Each probe is paired with a hidden evaluation harness that combines functional tests for required behavior with structural oracles that encode the targeted maintainability constraint and return interpretable diagnoses. Using NITR, we evaluate 23 coding configurations across GPT, Claude, Gemini, and Qwen families in both direct-inference and agent-based settings. Current AI coding systems remain far from robust: on average, configurations solve only 36.2% of cases, the best reaches 57.1%, and performance drops from 53.5% on micro cases to 20.6% on multi-step cases. The hardest pressures are architectural rather than local edits, especially dependency control (4.3%) and responsibility decomposition (15.2%). Moreover, 64/483 outcomes (13.3%) pass all functional tests yet fail the structural oracle. Under our harness, agent-mode configurations improve average performance from 28.2% to 45.0%, but do not eliminate these architectural failures. These results show that progress in code generation is not yet progress in maintainable code evolution, and that NITR exposes a critical failure surface missed by conventional evaluation.
- Abstract(参考訳): AIコーディングエージェントは複雑なプログラミングタスクを完了できるが、既存の評価では振る舞いの正しさが強調され、モジュール化の弱さやテスト容易性といった保守性リスクが無視されることが多い。
Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するための診断用プローブ・アンド・オークル・フレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さくて現実的なマルチファイルコードベースに埋め込まれた制御されたプローブに蒸留する。
各プローブは、必要な振る舞いに対する機能テストと、目標とする保守性制約を符号化し、解釈可能な診断を返す構造託とを組み合わせた、隠れた評価ハーネスと組み合わせられる。
NITRを用いて、GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
現在のAIコーディングシステムは、平均して36.2%のケースしか解決せず、最高は57.1%に達し、マイクロケースでは53.5%からマルチステップでは20.6%に低下している。
最も厳しい圧力は、局所的な編集よりもアーキテクチャであり、特に依存性制御(4.3%)と責任分解(15.2%)である。
さらに、64/483の結果 (13.3%) は全ての機能テストに合格するが、構造的なオラクルに失敗する。
我々のハーネスの下では、エージェントモード構成は平均性能を28.2%から45.0%に改善するが、これらのアーキテクチャ上の失敗は排除しない。
これらの結果から,コード生成の進展はまだ維持可能なコード進化の進展には至っていないこと,NITRが従来の評価で欠落した重大な故障面を露呈していることが示唆された。
関連論文リスト
- SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Do AI Agents Really Improve Code Readability? [0.0]
不適切な可読性は、開発時間を拡張し、バグを引き起こすリスクを高め、技術的負債に寄与する。
大規模言語モデルの急速な進歩により、AIエージェントベースのアプローチは複雑なタスクを自動分解するための有望なパラダイムとして登場した。
本研究では,AIエージェントによるコードの可読性向上効果について検討する。
論文 参考訳(メタデータ) (2026-03-14T03:01:10Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - On the need to perform comprehensive evaluations of automated program repair benchmarks: Sorald case study [4.968268396950843]
自動プログラム修復(APR)ツールは、静的解析プロファイラによって検出された違反に自動的に対処することで、コード品質を改善することを目的としている。
これまでの研究では、APRツールは違反をクリアする能力のためにのみ評価される傾向があった。
本研究では,最先端のAPRツールであるSoraldを概念実証として評価する。
論文 参考訳(メタデータ) (2025-08-21T00:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。