論文の概要: SWE Context Bench: A Benchmark for Context Learning in Coding
- arxiv url: http://arxiv.org/abs/2602.08316v1
- Date: Mon, 09 Feb 2026 06:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.09107
- Title: SWE Context Bench: A Benchmark for Context Learning in Coding
- Title(参考訳): SWE Context Bench: コーディングにおけるコンテキスト学習のベンチマーク
- Authors: Jared Zhu, Minhao Hu, Junde Wu,
- Abstract要約: SWE-ContextBenchは,プログラムエージェントでの体験再利用を明示的に評価するためのベンチマークである。
SWE-Bench Lite上に構築されたSWE-ContextBenchは、GitHubイシューとプルリクエスト間の実際の依存関係と参照関係から99の関連タスクで300のベースタスクを拡張している。
適切に選択された要約された体験により、解像度が向上し、実行時間とトークンコストが大幅に削減されることを示す。
- 参考スコア(独自算出の注目度): 6.093520696434546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used as programming agents for repository level software engineering tasks. While recent benchmarks evaluate correctness in realistic codebases, they largely treat tasks as independent and do not assess whether agents can reuse experience across related problems. As a result, the ability of agents to accumulate, retrieve, and apply prior experience, as well as the efficiency gains from such reuse, remains difficult to measure. We introduce SWE-ContextBench, a benchmark designed to explicitly evaluate experience reuse in programming agents. Built on SWE-Bench Lite, SWE-ContextBench augments 300 base tasks with 99 related tasks derived from real dependency and reference relationships among GitHub issues and pull requests, forming task sequences with shared context. The benchmark evaluates agents along three complementary dimensions: prediction accuracy, time efficiency, and cost efficiency. Using SWE-ContextBench, we study multiple experience reuse settings, including oracle guided and autonomous retrieval, as well as full execution trajectories and compact summaries. Our results show that correctly selected summarized experience improves resolution accuracy and substantially reduces runtime and token cost, particularly on harder tasks. In contrast, unfiltered or incorrectly selected experience provides limited or negative benefits. These findings highlight the importance of experience representation and retrieval quality, and position SWE-ContextBench as a principled benchmark for studying experience reuse in programming agents.
- Abstract(参考訳): 大規模言語モデルは、リポジトリレベルのソフトウェアエンジニアリングタスクのプログラミングエージェントとして、ますます使われています。
最近のベンチマークでは、現実的なコードベースの正確性を評価しているが、それらはタスクを主に独立して扱い、エージェントが関連する問題で経験を再利用できるかどうかを評価していない。
その結果, エージェントによる事前経験の蓄積, 回収, 適用能力, 再利用による効率性の向上は, 測定が困難である。
SWE-ContextBenchは,プログラムエージェントでの体験再利用を明示的に評価するためのベンチマークである。
SWE-Bench Lite上に構築されたSWE-ContextBenchは、GitHubイシューとプルリクエスト間の実際の依存性と参照関係から99の関連タスクで300のベースタスクを拡張し、共有コンテキストでタスクシーケンスを生成する。
このベンチマークは、予測精度、時間効率、コスト効率の3つの相補的な次元に沿ってエージェントを評価する。
SWE-ContextBenchを用いて、オラクルガイドや自律検索、フル実行トラジェクトリ、コンパクトサマリーなど、複数の体験再利用設定について検討する。
この結果から, 適切に選択された要約経験により, 解決精度が向上し, 特に困難なタスクにおいて, 実行時間とトークンコストを大幅に削減できることがわかった。
対照的に、フィルタされていない、または誤って選択された経験は、限定的または負の利益をもたらす。
これらの知見は、経験表現と検索品質の重要性を強調し、SWE-ContextBenchをプログラミングエージェントにおける経験の再利用を研究するための基準として位置づけた。
関連論文リスト
- The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - Contextual Experience Replay for Self-Improvement of Language Agents [47.51006612841945]
本稿では,言語エージェントに対する効率的な自己改善を実現するために,コンテキスト体験リプレイ(CER)を提案する。
CERは過去の経験を蓄積し、動的メモリバッファに合成する。
我々は WebArena と VisualWebArena のベンチマークで CER を評価した。
論文 参考訳(メタデータ) (2025-06-07T07:47:35Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。