論文の概要: Scalable Supervising Software Agents with Patch Reasoner
- arxiv url: http://arxiv.org/abs/2510.22775v1
- Date: Sun, 26 Oct 2025 17:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.361789
- Title: Scalable Supervising Software Agents with Patch Reasoner
- Title(参考訳): Patch Reasonerによるスケーラブルな監視ソフトウェアエージェント
- Authors: Junjielong Xu, Boyin Tan, Xiaoyuan Liu, Chao Peng, Pengfei Gao, Pinjia He,
- Abstract要約: 本稿では,SWEエージェントの学習とテストにスケーラブルな報酬を提供するパッチ検証モデルであるR4Pを提案する。
R4P は SWE-bench-verified のパッチを 72.2% で検証し、OpenAI o3 を上回っている。
Mini-SEはSWE-bench-verifiedで26.2%のPass@1を達成し、オリジナルのQwen3-32Bよりも10.0%改善した。
- 参考スコア(独自算出の注目度): 15.323379168249536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language model agents have advanced software engineering tasks, the unscalable nature of existing test-based supervision is limiting the potential improvement of data scaling. The reason is twofold: (1) building and running test sandbox is rather heavy and fragile, and (2) data with high-coverage tests is naturally rare and threatened by test hacking via edge cases. In this paper, we propose R4P, a patch verifier model to provide scalable rewards for training and testing SWE agents via reasoning. We consider that patch verification is fundamentally a reasoning task, mirroring how human repository maintainers review patches without writing and running new reproduction tests. To obtain sufficient reference and reduce the risk of reward hacking, R4P uses a group-wise objective for RL training, enabling it to verify multiple patches against each other's modification and gain a dense reward for stable training. R4P achieves 72.2% Acc. for verifying patches from SWE-bench-verified, surpassing OpenAI o3. To demonstrate R4P's practicality, we design and train a lite scaffold, Mini-SE, with pure reinforcement learning where all rewards are derived from R4P. As a result, Mini-SE achieves 26.2% Pass@1 on SWE-bench-verified, showing a 10.0% improvement over the original Qwen3-32B. This can be further improved to 32.8% with R4P for test-time scaling. Furthermore, R4P verifies patches within a second, 50x faster than testing on average. The stable scaling curves of rewards and accuracy along with high efficiency reflect R4P's practicality.
- Abstract(参考訳): 大きな言語モデルエージェントには高度なソフトウェアエンジニアリングタスクがあるが、既存のテストベース監視のスケールできない性質は、データスケーリングの潜在的な改善を制限している。
理由は2つある: 1) テストサンドボックスの構築と実行は、かなり重く脆弱であり、(2) 高いカバレッジテストを持つデータは、エッジケースによるテストハッキングによって自然に稀で脅かされている。
本稿では,SWEエージェントの学習とテストにスケーラブルな報酬を提供するパッチ検証モデルであるR4Pを提案する。
我々は、パッチ検証は基本的に推論タスクであり、人間のリポジトリメンテナが新しい複製テストを書いて実行せずにパッチをレビューする方法を反映していると考えています。
十分な参照を取得し、報酬ハッキングのリスクを低減するため、R4PはRLトレーニングの集団的目的を使用して、互いの修正に対する複数のパッチを検証し、安定したトレーニングのための密集した報酬を得ることができる。
R4Pは72.2%のAccを達成する。
OpenAI o3を超えるSWE-bench-verifiedのパッチを検証する。
R4Pの実用性を実証するため、我々はR4Pから得られるすべての報酬が引き出される純粋強化学習により、ライト足場であるMini-SEを設計し、訓練する。
その結果、Mini-SEはSWE-bench-verified上で26.2%のPass@1を達成し、元のQwen3-32Bよりも10.0%改善した。
これはテスト時間スケーリングのためにR4Pで32.8%に改善できる。
さらに、R4Pは、平均テストよりも1秒以内、50倍早くパッチを検証する。
報酬と精度の安定なスケーリング曲線と高い効率性は、R4Pの実用性を反映している。
関連論文リスト
- When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution [8.305144449617883]
TestPruneは,イシュートラッカレポートを活用して,バグ再現とパッチ検証の両面において,レグレッションテストを戦略的に再利用する,完全に自動化されたテクニックである。
TestPruneは任意のエージェントバグ修正パイプラインにプラグイン可能で、全体的なパフォーマンスが急速に向上する。
論文 参考訳(メタデータ) (2025-10-21T03:42:28Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Spurious Rewards: Rethinking Training Signals in RLVR [130.3484456088909]
検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。
例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。
コード推論 -- 実際のコード実行なしにコードで考える -- は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
論文 参考訳(メタデータ) (2025-06-12T17:49:55Z) - Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [18.117047833029073]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。
本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-19T14:02:21Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Efficient Sparse-Reward Goal-Conditioned Reinforcement Learning with a
High Replay Ratio and Regularization [1.57731592348751]
高再生率(RR)と正則化を有する強化学習(RL)法は, より優れた試料効率により注目されている。
本稿では、これらのRL手法をスパース・リワード目標条件タスクに拡張することを目的とする。
論文 参考訳(メタデータ) (2023-12-10T06:30:19Z) - RepPoints V2: Verification Meets Regression for Object Detection [65.120827759348]
本稿ではRepPointsのローカライズ予測に検証タスクを導入する。
RepPoints v2は、オリジナルのRepPointsよりも約2.0mAPの一貫性のある改善を提供する。
提案手法は、インスタンスセグメンテーションのようなアプリケーションと同様に、他のオブジェクト検出フレームワークをより高めることができることを示す。
論文 参考訳(メタデータ) (2020-07-16T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。