論文の概要: ContextBench: A Benchmark for Context Retrieval in Coding Agents
- arxiv url: http://arxiv.org/abs/2602.05892v1
- Date: Thu, 05 Feb 2026 17:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.073129
- Title: ContextBench: A Benchmark for Context Retrieval in Coding Agents
- Title(参考訳): ContextBench: コーディングエージェントにおけるコンテキスト検索のためのベンチマーク
- Authors: Han Li, Letian Zhu, Bohan Zhang, Rili Feng, Jiaming Wang, Yue Pan, Earl T. Barr, Sarro Federica, Zhaoyang Chu, He Ye,
- Abstract要約: コーディングエージェントにおけるコンテキスト検索のプロセス指向評価であるContextBenchを紹介する。
ContextBenchは、8つのプログラミング言語にわたる66のリポジトリから1,136のイシュー解決タスクで構成されている。
- 参考スコア(独自算出の注目度): 23.106468835644495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based coding agents have shown strong performance on automated issue resolution benchmarks, yet existing evaluations largely focus on final task success, providing limited insight into how agents retrieve and use code context during problem solving. We introduce ContextBench, a process-oriented evaluation of context retrieval in coding agents. ContextBench consists of 1,136 issue-resolution tasks from 66 repositories across eight programming languages, each augmented with human-annotated gold contexts. We further implement an automated evaluation framework that tracks agent trajectories and measures context recall, precision, and efficiency throughout issue resolution. Using ContextBench, we evaluate four frontier LLMs and five coding agents. Our results show that sophisticated agent scaffolding yields only marginal gains in context retrieval ("The Bitter Lesson" of coding agents), LLMs consistently favor recall over precision, and substantial gaps exist between explored and utilized context. ContextBench augments existing end-to-end benchmarks with intermediate gold-context metrics that unbox the issue-resolution process. These contexts offer valuable intermediate signals for guiding LLM reasoning in software tasks. Data and code are available at: https://cioutn.github.io/context-bench/.
- Abstract(参考訳): LLMベースのコーディングエージェントは、自動イシュー解決ベンチマークで強いパフォーマンスを示しているが、既存の評価は最終タスクの成功に重点を置いており、エージェントが問題解決中にコードコンテキストを検索して利用する方法についての限られた洞察を与えている。
コーディングエージェントにおけるコンテキスト検索のプロセス指向評価であるContextBenchを紹介する。
ContextBenchは、8つのプログラミング言語にわたる66のリポジトリから1,136のイシュー解決タスクで構成されている。
さらに、エージェントの軌跡を追跡する自動評価フレームワークを実装し、課題解決を通してコンテキストリコール、精度、効率を計測する。
ContextBenchを用いて、4つのフロンティアLCMと5つの符号化エージェントを評価する。
以上の結果から,高度なエージェントスキャフォールディングは文脈検索において限界利得しか得られないことが分かる("The Bitter Lesson of coding agent")。
ContextBenchは、既存のエンドツーエンドのベンチマークを、イシュー解決プロセスを解き放つ中間のゴールドコンテキストメトリクスで拡張します。
これらのコンテキストは、ソフトウェアタスクにおけるLLM推論を導くための貴重な中間信号を提供する。
データとコードは、https://cioutn.github.io/context-bench/.com/で入手できる。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice [18.222990693059756]
ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。
153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。
レビューワークフローに沿った3つの評価シナリオをサポートする。
論文 参考訳(メタデータ) (2025-11-10T12:06:35Z) - Context-DPO: Aligning Language Models for Context-Faithfulness [80.62221491884353]
本研究では,大規模言語モデルの文脈信頼度を高めるためのアライメント手法を提案する。
ConFiQAから提供されたコンテキストの質問に対する忠実で頑健な応答を活用することで、Context-DPOは直接の選好最適化を通じてLLMを調整します。
大規模な実験により、私たちのContext-DPOは、一般的なオープンソースモデルで35%から280%の改善を達成し、コンテキスト忠実性を大幅に改善します。
論文 参考訳(メタデータ) (2024-12-18T04:08:18Z) - HyQE: Ranking Contexts with Hypothetical Query Embeddings [9.23634055123276]
検索拡張システムでは、検索したコンテキストをユーザクエリとの関連性に基づいて順序付けするために、コンテキストランキング技術が一般的に使用される。
大規模言語モデル(LLM)は、文脈のランク付けに使われてきた。
LLMの微調整を必要とせずに、埋め込み類似性とLLM機能を組み合わせたスケーラブルなランキングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-10-20T03:15:01Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [29.129035086344143]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。
我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文 参考訳(メタデータ) (2024-06-06T19:44:17Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。