論文の概要: BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases
- arxiv url: http://arxiv.org/abs/2605.06136v1
- Date: Thu, 07 May 2026 12:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.775869
- Title: BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases
- Title(参考訳): BUILD-AND-FIND:エージェント管理されたコードベース評価のためのEffort-Aware Protocol
- Authors: Jhen-Ke Lin,
- Abstract要約: BUILD-AND-FINDは、下流エージェントが生成されたリポジトリから意図した選択を復元できるかどうかを評価するプロトコルである。
各タスクに対して、ビルダーは隠されたリポジトリの仕様を見て、仕様に書かれた複数選択の質問バンクを作成します。
このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most coding-agent benchmarks ask whether generated code behaves correctly. That remains essential, but repository-level engineering is increasingly agent-managed: one agent writes a repository, and later agents inspect, audit, or extend it as working context. In that setting, a generated repository is not only an answer to a task but also a communication artifact for future work. Even when strong agents nearly satisfy the visible behavioral objective, repositories can differ in how clearly they expose the intended behavior and design choices behind that behavior. We introduce BUILD-AND-FIND, a protocol for evaluating whether downstream agents can recover those intended choices from generated repositories, and how much inspection that recovery requires. For each task, a builder sees a hidden repository specification and creates a codebase; a finder sees only the codebase and a specification-traced multiple-choice question bank. The protocol separates behavioral correctness from artifact-side recovery and reports recovery accuracy, repeatability, implementation coverage, and inspection effort. Accuracy and stability act as gates: effort is interpreted only when recovery succeeds reliably. Among artifacts from which the same intent can be recovered, lower effort by the same finder suggests that the artifact makes that intent easier to locate. Question-only and spec-only controls quantify generic priors and specification access, while audits separate omitted claims from finder failures and check whether correct answers cite artifact evidence. In the released high-prior task pack, recovery accuracy is near saturation, so inspection effort and finder-specific effects provide the main panel-local comparison.
- Abstract(参考訳): ほとんどのコーディングエージェントベンチマークは、生成されたコードが正しく振る舞うかどうかを問う。
1つのエージェントがリポジトリを書き、その後、エージェントがそれを動作コンテキストとして検査、監査、拡張する。
その設定では、生成されたリポジトリはタスクに対する答えであるだけでなく、将来の作業のためのコミュニケーションアーティファクトでもある。
強力なエージェントが可視的な振る舞いの目的をほぼ満たしているとしても、リポジトリはその振る舞いの背後にある意図された振る舞いと設計上の選択を明確に示す方法が異なる可能性がある。
BUILD-AND-FIND(BUILD-AND-FIND)は、下流エージェントが生成されたリポジトリから意図した選択を回復できるかどうか、その回復に必要な検査量を評価するプロトコルである。
各タスクに対して、ビルダーは隠れたリポジトリ仕様を見てコードベースを作成します。
このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
精度と安定性はゲートとして働き、回復が確実な場合にのみ努力が解釈される。
同じ意図を回収できるアーティファクトの中で、同じファインダによる低い労力は、アーティファクトがその意図を見つけやすくしていることを示唆している。
質問のみと仕様のみのコントロールは、ジェネリックプリエントと仕様アクセスを定量化し、監査はファインダの失敗から省略されたクレームを分離し、正しい回答がアーティファクトの証拠を引用するかどうかをチェックする。
リリースした高次タスクパックでは、リカバリ精度がほぼ飽和しているため、インスペクションとファインダ固有の効果が主パネル局所比較を提供する。
関連論文リスト
- Beyond Code Reasoning: Specification-Anchored Auditing of Multi-Implementation Distributed Protocols [1.5229705287183657]
SPECAは、明示的で分類されたセキュリティプロパティを自然言語仕様から導き出し、実装間で再利用する監査フレームワークである。
RepoAuditのベンチマークでは、SPECAは100%リコール(F1=0.94)で88.9%の精度に達し、著者が検証した12のバグを地上の真実を超えて表面化している。
Sherlock Fusaka Audit Contest(10のターゲット、366の応募)では、SPECAが専門家が強化した15の脆弱性をすべて回復し、4つの修正確認バグが浮上した。
論文 参考訳(メタデータ) (2026-04-29T09:57:07Z) - Learning to Commit: Generating Organic Pull Requests via Online Repository Memory [11.042326503752756]
大きな言語モデル(LLM)ベースのコーディングエージェントは、制御されたベンチマークで印象的な結果を得るが、実際のメンテナが拒否するプルリクエストを定期的に生成する。
オンラインリポジトリメモリを通じてこのギャップを埋めるフレームワークであるLearning to Commitを紹介します。
論文 参考訳(メタデータ) (2026-03-27T17:58:56Z) - A Benchmark for Evaluating Repository-Level Code Agents with Intermediate Reasoning on Feature Addition Task [11.218318079376365]
RACE-benchは、機能追加タスクでコードエージェントを評価するための推論強化ベンチマークである。
RACE-benchには、12のオープンソースリポジトリから528の現実世界の機能追加インスタンスが含まれている。
RACE-bench上での3つのリポジトリレベルのコードエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-27T11:58:47Z) - ReqToCode: Embedding Requirements Traceability as a Structural Property of the Codebase [0.0]
本稿では,トレース可能なシステム要素を直接システムに埋め込むことによって,トレースの劣化を防止する手法であるReqToCodeを紹介する。
アプローチ、アーキテクチャ原則、トレーサブルライフサイクルを説明し、要求定義、アーティファクト生成、コード統合、ビルド時の検証を対象とする一般的な例で説明します。
論文 参考訳(メタデータ) (2026-03-14T16:00:09Z) - Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。
サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。
スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文 参考訳(メタデータ) (2025-10-22T05:18:28Z) - On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。
我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文 参考訳(メタデータ) (2024-06-06T19:44:17Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。