論文の概要: Outcome-Conditioned Reasoning Distillation for Resolving Software Issues
- arxiv url: http://arxiv.org/abs/2601.23257v1
- Date: Fri, 30 Jan 2026 18:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.611116
- Title: Outcome-Conditioned Reasoning Distillation for Resolving Software Issues
- Title(参考訳): ソフトウェア問題解決のためのアウトカムコンディション型推論蒸留法
- Authors: Chenglin Li, Yisen Xu, Zehao Wang, Shin Hwei Tan, Tse-Hsun, Chen,
- Abstract要約: 本稿では, 検証済みパッチを監督として, リポジトリ内問題を解決したO-CRD(Outcome-Conditioned Reasoning Distillation)フレームワークを提案する。
歴史的修正から始まり、検証結果から段階的な修理トレースを後方に再構築する。
SWE-Bench Liteでは、GPT-4oではPass@1が10.4%、DeepSeek-V3では8.6%、GPT-5では10.3%増加する。
- 参考スコア(独自算出の注目度): 49.16055123488827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software issue resolution in large repositories is a long-range decision process: choices made during localization shape the space of viable edits, and missteps can compound into incorrect patches. Despite this, many LLM-based repair pipelines still operate in a reset-and-solve manner, producing fresh reasoning for every new issue instead of carrying forward what worked in past fixes. This is wasteful because repositories routinely contain earlier issues with overlapping structure, failure modes, or constraints, where prior repair experience could provide useful guidance. Existing approaches typically harvest this signal through forward-time trial procedures, such as repeated refinement or search, incurring high inference cost while still risking divergence from the eventual correct patch. We present an Outcome-Conditioned Reasoning Distillation(O-CRD) framework that uses resolved in-repository issues with verified patches as supervision. Starting from a historical fix, the method reconstructs a stage-wise repair trace backward from the verified outcome, then reuses the distilled guidance at inference time to steer file/function localization and patch synthesis, without fine-tuning or online search. On SWE-Bench Lite, this approach increases Pass@1 by 10.4% with GPT-4o, 8.6% with DeepSeek-V3, and 10.3% with GPT-5, indicating that outcome-conditioned reuse of verified repairs can replace costly forward exploration for software issue resolution.
- Abstract(参考訳): 大規模なリポジトリにおけるソフトウェアイシュー解決は、長い範囲の意思決定プロセスである。ローカライゼーション中の選択は、実行可能な編集の空間を形作る。
にもかかわらず、多くのLLMベースの修理パイプラインはリセット・アンド・ソルブ方式で運用されており、過去の修正で成功したことを前進させるのではなく、すべての新しい問題に対する新たな推論を生み出している。
リポジトリには、オーバーラップした構造や障害モード、あるいは事前の修復経験が有用なガイダンスを提供する制約といった、以前の問題が常々含まれているため、これは無駄です。
既存のアプローチでは、リファインメントやサーチのような前向きな試行錯誤によってこの信号を回収し、高い推論コストを発生させながら、最終的な修正パッチから分岐するリスクを冒すのが一般的である。
本稿では, 検証済みパッチを監督として, リポジトリ内問題を解決したO-CRD(Outcome-Conditioned Reasoning Distillation)フレームワークを提案する。
歴史的修正から、検証結果から段階的な修復トレースを後方に再構築し、推論時に蒸留したガイダンスを再利用して、微調整やオンライン検索をすることなく、ファイル/関数のローカライゼーションとパッチ合成を操る。
SWE-Bench Liteでは、この手法はGPT-4oでPass@1が10.4%、DeepSeek-V3で8.6%、GPT-5で10.3%増加し、検証済みの修復を結果条件で再利用することで、ソフトウェア問題解決のための費用対効果を代替できることを示している。
関連論文リスト
- R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stochastic Tree-of-Thoughts Patch Generation [3.5576449247822506]
本稿では,信頼性向上のための基本モデルに基づく自動プログラム修復フレームワークR3Aを提案する。
実験によると、R3Aは所定の時間内にRTL-repairデータセットの90.6%のバグを修正できる。
論文 参考訳(メタデータ) (2025-11-25T09:08:48Z) - REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement [12.995571513415905]
大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)に強い可能性を示している。
LLMは、コードコンテキストの限定的な理解と不完全なテストスイートへの過度な信頼のために、正しい修正を作成するのに苦労することが多い。
本稿では,ドラフトパッチを正しいものに体系的に変換する新しいパッチリファインメントフレームワークRefineを提案する。
論文 参考訳(メタデータ) (2025-10-04T00:34:32Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Patch Space Exploration using Static Analysis Feedback [8.13782364161157]
静的解析を利用して、メモリの安全性問題を自動的に修復する方法を示す。
提案したアプローチは、バグを修正するためのパッチの近さを検査することで、望ましいパッチが何であるかを学習する。
我々は,印字ヒープに対する影響に応じて等価パッチのクラスを作成し,そのクラスのパッチ等価度に対してのみ検証オラクルを呼び出すことにより,修復をスケーラブルにする。
論文 参考訳(メタデータ) (2023-08-01T05:22:10Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。