論文の概要: Pull Requests as a Training Signal for Repo-Level Code Editing
- arxiv url: http://arxiv.org/abs/2602.07457v1
- Date: Sat, 07 Feb 2026 09:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.632066
- Title: Pull Requests as a Training Signal for Repo-Level Code Editing
- Title(参考訳): リポジトリレベルのコード編集のための訓練信号としてのプルリクエスト
- Authors: Qinglin Zhu, Tianyu Chen, Shuai Lu, Lei Ji, Runcong Zhao, Murong Ma, Xiangxiang Dai, Yulan He, Lin Gui, Peng cheng, Yeyun Gong,
- Abstract要約: Clean Pull Request(Clean-PR)は、現実のGitHubプルリクエストをリポジトリレベルの編集のトレーニングシグナルとして活用する、トレーニング中のパラダイムである。
ノイズの多いプルリクエストの差分を,再構築と検証を通じて検索/リプレース編集ブロックに変換する,スケーラブルなパイプラインを導入する。
SWE-benchでは,SWE-bench Liteが13.6%,SWE-bench Verifiedが12.3%,命令調整ベースラインが大幅に向上した。
- 参考スコア(独自算出の注目度): 49.82435173554125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repository-level code editing requires models to understand complex dependencies and execute precise multi-file modifications across a large codebase. While recent gains on SWE-bench rely heavily on complex agent scaffolding, it remains unclear how much of this capability can be internalised via high-quality training signals. To address this, we propose Clean Pull Request (Clean-PR), a mid-training paradigm that leverages real-world GitHub pull requests as a training signal for repository-level editing. We introduce a scalable pipeline that converts noisy pull request diffs into Search/Replace edit blocks through reconstruction and validation, resulting in the largest publicly available corpus of 2 million pull requests spanning 12 programming languages. Using this training signal, we perform a mid-training stage followed by an agentless-aligned supervised fine-tuning process with error-driven data augmentation. On SWE-bench, our model significantly outperforms the instruction-tuned baseline, achieving absolute improvements of 13.6% on SWE-bench Lite and 12.3% on SWE-bench Verified. These results demonstrate that repository-level code understanding and editing capabilities can be effectively internalised into model weights under a simplified, agentless protocol, without relying on heavy inference-time scaffolding.
- Abstract(参考訳): リポジトリレベルのコード編集には、複雑な依存関係を理解し、大規模なコードベースにわたって正確なマルチファイル修正を実行するモデルが必要である。
SWE-benchの最近の進歩は複雑なエージェントの足場に大きく依存しているが、この能力のどの程度が高品質な訓練信号によって内部化できるかは不明だ。
これを解決するために、GitHubの実際のプルリクエストをリポジトリレベルの編集のトレーニングシグナルとして活用する、中間トレーニングパラダイムであるClean-PR(Clean-PR)を提案する。
ノイズの多いプルリクエストの差分を,再構成とバリデーションを通じて検索/リプレース編集ブロックに変換する,スケーラブルなパイプラインを導入しました。
このトレーニング信号を用いて、エージェントレスアラインの微調整処理とエラー駆動型データ拡張を行う。
SWE-benchでは,SWE-bench Liteが13.6%,SWE-bench Verifiedが12.3%,命令調整ベースラインが大幅に向上した。
これらの結果は、リポジトリレベルのコード理解と編集機能を、大量の推論時間の足場に頼ることなく、単純化されたエージェントレスプロトコルの下でモデルウェイトに効果的に内部化できることを示します。
関連論文リスト
- Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - One Tool Is Enough: Reinforcement Learning for Repository-Level LLM Agents [16.281864564259827]
RepoNavigatorは、呼び出されたシンボルの定義に単一の実行対応ツールジャンプを備えるエージェントである。
RepoNavigatorは、事前訓練されたモデルから直接強化学習を通じてエンドツーエンドで訓練され、クローズドソースの蒸留は行われない。
論文 参考訳(メタデータ) (2025-12-24T05:27:53Z) - Agentic Reinforcement Learning for Real-World Code Repair [7.512134741776294]
実際のリポジトリで信頼性の高いコード修正エージェントをトレーニングするという課題に取り組みます。
修正後のビルド検証として成功した検証可能なパイプラインを開発しました。
大規模強化学習のためのスケーラブルな簡易パイプラインを導入した。
論文 参考訳(メタデータ) (2025-10-24T23:25:02Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Repository Structure-Aware Training Makes SLMs Better Issue Resolver [20.095559504482885]
ReSAT(Repository Structure-Aware Training)を導入し,レポジトリ構造と課題解決能力の理解を深める。
本研究では,(1)ローカライゼーション学習データ,(2)コード理解とローカライゼーション能力を改善する多段階プログレッシブなローカライゼーションデータ,(2)コンテキストベースのコード編集機能を改善するコード編集トレーニングデータという2種類のトレーニングデータを構築した。
論文 参考訳(メタデータ) (2024-12-26T03:01:32Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。