論文の概要: When Agents go Astray: Course-Correcting SWE Agents with PRMs
- arxiv url: http://arxiv.org/abs/2509.02360v1
- Date: Tue, 02 Sep 2025 14:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.062659
- Title: When Agents go Astray: Course-Correcting SWE Agents with PRMs
- Title(参考訳): PRMを用いたSWEエージェントのコース調整
- Authors: Shubham Gandhi, Jason Tsay, Jatin Ganhotra, Kiran Kate, Yara Rizk,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、複雑で多段階のソフトウェア工学(SWE)タスクにますますデプロイされる。
彼らの軌道はしばしば、冗長な探索、ループ、解が到達した後に終了する失敗など、コストのかかる非効率を含んでいる。
本稿では,SWE-PRM(Inference-time Process Reward Model, PRM)を導入する。
- 参考スコア(独自算出の注目度): 7.017285839527226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents are increasingly deployed for complex, multi-step software engineering (SWE) tasks. However, their trajectories often contain costly inefficiencies, such as redundant exploration, looping, and failure to terminate once a solution is reached. Prior work has largely treated these errors in a post-hoc manner, diagnosing failures only after execution. In this paper, we introduce SWE-PRM, an inference-time Process Reward Model (PRM) that intervenes during execution to detect and course-correct trajectory-level errors. Our PRM design leverages a taxonomy of common inefficiencies and delivers lightweight, interpretable feedback without modifying the underlying policy. On SWE-bench Verified, closed-source PRMs improve resolution from 40.0% to 50.6% (+10.6 p.p.), with the largest gains on medium and hard tasks. Among feedback strategies, taxonomy-guided PRMs outperform unguided or explicit action-prescriptive variants, increasing success rate while reducing trajectory length. These benefits come at an acceptable added inference cost of as low as $0.2, making PRMs a practical and scalable mechanism for improving SWE agents' reliability and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑で多段階のソフトウェア工学(SWE)タスクにますますデプロイされる。
しかしながら、それらの軌道はしばしば、冗長な探索、ループ、解が到達した後に終了する失敗など、コストのかかる非効率を含んでいる。
以前の作業では、これらのエラーをポストホックな方法で処理し、実行後にのみ障害を診断していた。
本稿では,SWE-PRM(Inference-time Process Reward Model, PRM)を導入する。
我々のPRM設計は、共通非効率の分類を利用しており、基礎となる方針を変更することなく、軽量で解釈可能なフィードバックを提供する。
SWEベンチマーク検証では、クローズドソースのPRMは解像度を40.0%から50.6%(+10.6 p.p.)に改善し、中堅タスクやハードタスクで最大の利益を上げている。
フィードバック戦略の中で、分類誘導型PRMは無誘導または明示的な行動規範的変異よりも優れ、軌道長を減らしながら成功率を高めた。
これらの利点は、SWEエージェントの信頼性と効率を改善するための実用的でスケーラブルなメカニズムとして、0.2ドルという許容可能な追加の推論コストをもたらす。
関連論文リスト
- Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - VRPRM: Process Reward Modeling via Visual Reasoning [25.04579441819971]
視覚的推論によるプロセス報酬モデルであるVRPRMを提案し、効率的な2段階トレーニング戦略を設計する。
わずか3.6KのCoT-PRM SFTデータと50Kの非CoT PRM RLトレーニングデータを使用すると、VRPRMは総データ量400Kの非考えのPRMを超えることができる。
論文 参考訳(メタデータ) (2025-08-05T15:25:24Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。