論文の概要: The Limits of Long-Context Reasoning in Automated Bug Fixing
- arxiv url: http://arxiv.org/abs/2602.16069v1
- Date: Tue, 17 Feb 2026 22:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.460919
- Title: The Limits of Long-Context Reasoning in Automated Bug Fixing
- Title(参考訳): 自動バグ修正におけるロングコンテキスト推論の限界
- Authors: Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker,
- Abstract要約: 大規模言語モデル(LLM)は、コンテキスト全体を直接推論することができる。
LLMの最近の進歩は、ソフトウェア工学のベンチマークで強力なパフォーマンスを実現している。
我々は,現在のLLMが長文コードとパッチ生成を確実に実行可能であるかどうかを体系的に評価する。
- 参考スコア(独自算出の注目度): 4.853967615615349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapidly increasing context lengths have led to the assumption that large language models (LLMs) can directly reason over entire codebases. Concurrently, recent advances in LLMs have enabled strong performance on software engineering benchmarks, particularly when paired with agentic workflows. In this work, we systematically evaluate whether current LLMs can reliably perform long-context code debugging and patch generation. Using SWE-bench Verified as a controlled experimental setting, we first evaluate state-of-the-art models within an agentic harness (mini-SWE-agent), where performance improves substantially: GPT-5-nano achieves up to a 31\% resolve rate on 100 samples, and open-source models such as Deepseek-R1-0528 obtain competitive results. However, token-level analysis shows that successful agentic trajectories typically remain under 20k tokens, and that longer accumulated contexts correlate with lower success rates, indicating that agentic success primarily arises from task decomposition into short-context steps rather than effective long-context reasoning. To directly test long-context capability, we construct a data pipeline where we artificially inflate the context length of the input by placing the relevant files into the context (ensuring perfect retrieval recall); we then study single-shot patch generation under genuinely long contexts (64k-128k tokens). Despite this setup, performance degrades sharply: Qwen3-Coder-30B-A3B achieves only a 7\% resolve rate at 64k context, while GPT-5-nano solves none of the tasks. Qualitative analysis reveals systematic failure modes, including hallucinated diffs, incorrect file targets, and malformed patch headers. Overall, our findings highlight a significant gap between nominal context length and usable context capacity in current LLMs, and suggest that existing agentic coding benchmarks do not meaningfully evaluate long-context reasoning.
- Abstract(参考訳): コンテキスト長の急速な増加は、大きな言語モデル(LLM)がコードベース全体を直接的に推論できるという仮定につながった。
同時に、LLMの最近の進歩は、特にエージェントワークフローと組み合わせた場合、ソフトウェアエンジニアリングのベンチマークで強力なパフォーマンスを実現している。
本研究では,現在のLLMが長文コードのデバッグやパッチ生成を確実に行うことができるかどうかを系統的に評価する。
GPT-5-nanoは100サンプルに対して最大31倍の分解率を達成し,Deepseek-R1-0528のようなオープンソースモデルは競争力のある結果を得る。
しかし、トークンレベルの分析では、成功したエージェントの軌道は一般に20kのトークン以下であり、長時間蓄積されたコンテキストは低い成功率と相関しており、エージェントの成功は主に、効果的な長期コンテキスト推論ではなく、タスクの分解から短コンテキストステップへと生じることを示している。
データパイプラインを構築し,関連するファイルをコンテキストに配置することで,コンテキスト長を人工的にインフレーションする(完全なリカバリを保証)。
Qwen3-Coder-30B-A3Bは64kコンテキストで7\%のリゾルバ率しか達成せず、GPT-5-nanoはどのタスクも解決しない。
定性的分析では、幻覚的な差分、不正なファイルターゲット、不正なパッチヘッダなど、系統的な障害モードが明らかにされている。
以上の結果から,従来のエージェントプログラミングベンチマークでは長文推論を有意に評価していないことが示唆された。
関連論文リスト
- SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents [32.69890220986935]
我々は,コーディングエージェントのための自己適応型コンテキストプルーニングフレームワークであるSWE-Prunerを提案する。
SWE-Prunerは、長いコンテキストに対してタスク対応の適応型プルーニングを実行する。
SWE-Bench Verifiedのようなエージェントタスクで23~54%のトークン削減を実現し、LongCodeQAのようなシングルターンタスクで最大14.84倍の圧縮を実現している。
論文 参考訳(メタデータ) (2026-01-23T13:51:59Z) - Intelligence Degradation in Long-Context LLMs: Critical Threshold Determination via Natural Length Distribution Analysis [2.085792950847639]
大規模言語モデル(LLM)は、特定の臨界しきい値に近づく処理コンテキストにおいて、性能劣化を示す。
このインテリジェンス劣化は、タスクパフォーマンスの30%以上を減らし、コンテキストの長いアプリケーションを制限する。
この研究は、オープンソースのQwenモデルにおいて、インテリジェンス劣化の最初の体系的特徴を提供する。
論文 参考訳(メタデータ) (2026-01-07T07:56:31Z) - Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs [39.99645732873852]
予測時間の戦略は、リターンが急速に減少し、長いコンテキストで失敗することを示している。
静的自己認識の限界を克服する簡単な方法を提案する。
本手法は,LongBench-v2 および ZeroScrolls ベンチマークのサブセットの平均値において,Qwen3-4B に対する 12.6 および 14.1 パーセントの大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-12-15T21:01:37Z) - Short-Context Dominance: How Much Local Context Natural Language Actually Needs? [48.429870236229696]
正確な全文予測を再現するのに必要となる最小コンテキスト長を計測する。
長文文書から1-7kのトークンを持つシーケンスの場合、75-80%は最下位96トークンしか必要としない。
そこで本研究では,実際の次点知識を必要としないMCL(Distributedally Aware MCL)の実践的プロキシについて紹介する。
論文 参考訳(メタデータ) (2025-12-08T22:25:00Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Overflow Prevention Enhances Long-Context Recurrent LLMs [81.71585057993074]
LLMの最近のトレンドは、長いコンテキスト処理効率を改善するために、再帰的なサブクワッドラティックモデルの開発である。
本研究では,大規模な長期コンテキストモデルにおいて,その固定サイズ再帰記憶が性能に与える影響について検討する。
実験の結果、これらのモデルが拡張コンテキストでトレーニングされている場合でも、長いコンテキストの使用は未利用のままであることが判明した。
論文 参考訳(メタデータ) (2025-05-12T17:45:05Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスを確実に予測できない。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクが完全コンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。