論文の概要: Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards
- arxiv url: http://arxiv.org/abs/2506.11425v1
- Date: Fri, 13 Jun 2025 02:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.637803
- Title: Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards
- Title(参考訳): Agent-RLVR: ガイダンスと環境リワードによるソフトウェアエンジニアリングエージェントのトレーニング
- Authors: Jeff Da, Clinton Wang, Xiang Deng, Yuntao Ma, Nikhil Barhate, Sean Hendryx,
- Abstract要約: 本稿では,エージェント設定に挑戦する上で,RLVRを効果的にするためのフレームワークであるAgent-RLVRを紹介する。
エージェント-RLVRは、人間の教育にインスパイアされ、エージェント誘導(エージェント誘導)を導入している。
ガイダンスを付加したRLVRデータは、テストタイム報酬モデルトレーニングにも役立ち、さらにpass@1を27.8%に向上させることで示されています。
- 参考スコア(独自算出の注目度): 8.390219473444446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has been widely adopted as the de facto method for enhancing the reasoning capabilities of large language models and has demonstrated notable success in verifiable domains like math and competitive programming tasks. However, the efficacy of RLVR diminishes significantly when applied to agentic environments. These settings, characterized by multi-step, complex problem solving, lead to high failure rates even for frontier LLMs, as the reward landscape is too sparse for effective model training via conventional RLVR. In this work, we introduce Agent-RLVR, a framework that makes RLVR effective in challenging agentic settings, with an initial focus on software engineering tasks. Inspired by human pedagogy, Agent-RLVR introduces agent guidance, a mechanism that actively steers the agent towards successful trajectories by leveraging diverse informational cues. These cues, ranging from high-level strategic plans to dynamic feedback on the agent's errors and environmental interactions, emulate a teacher's guidance, enabling the agent to navigate difficult solution spaces and promotes active self-improvement via additional environment exploration. In the Agent-RLVR training loop, agents first attempt to solve tasks to produce initial trajectories, which are then validated by unit tests and supplemented with agent guidance. Agents then reattempt with guidance, and the agent policy is updated with RLVR based on the rewards of these guided trajectories. Agent-RLVR elevates the pass@1 performance of Qwen-2.5-72B-Instruct from 9.4% to 22.4% on SWE-Bench Verified. We find that our guidance-augmented RLVR data is additionally useful for test-time reward model training, shown by further boosting pass@1 to 27.8%. Agent-RLVR lays the groundwork for training agents with RLVR in complex, real-world environments where conventional RL methods struggle.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を高めるデファクト手法として広く採用されており、数学や競合プログラミングタスクのような検証可能な領域で顕著な成功を収めている。
しかし, エージェント環境に適用した場合, RLVRの有効性は著しく低下する。
これらの設定は、多段階の複雑な問題解決を特徴とし、従来のRLVRによる効果的なモデルトレーニングには、報酬のランドスケープが小さすぎるため、フロンティアのLLMに対しても高い失敗率をもたらす。
本稿では,RLVRをエージェント設定に挑戦する上で効果的にするフレームワークであるAgent-RLVRを紹介する。
エージェント-RLVRは、人間の教育にインスパイアされたエージェント誘導(エージェント誘導)を導入し、多様な情報手段を活用することで、エージェントを軌道上の成功に向けて積極的に操縦するメカニズムである。
これらの方法は、高レベルの戦略計画からエージェントのエラーや環境相互作用に対する動的フィードバックまで幅広いもので、教師の指導をエミュレートし、エージェントが困難なソリューション空間をナビゲートし、追加の環境探索を通じてアクティブな自己改善を促進する。
Agent-RLVRトレーニングループでは、エージェントが最初の軌道を生成するタスクを最初に解決しようと試み、ユニットテストによって検証され、エージェントガイダンスが補完される。
その後、エージェントはガイダンスで再試行し、エージェントポリシーはこれらのガイドされた軌跡の報酬に基づいてRLVRで更新される。
Agent-RLVRは、Qwen-2.5-72B-InstructのパフォーマンスをSWE-Bench Verified上で9.4%から22.4%に向上させる。
ガイダンスを付加したRLVRデータは、テストタイム報酬モデルトレーニングにも役立ち、さらにpass@1を27.8%に向上させることで示されています。
Agent-RLVRは、従来のRLメソッドが苦労する複雑な現実世界環境において、RLVRを使用したトレーニングエージェントの基盤となる。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Resource-Efficient Reinforcement for Reasoning Large Language Models via Dynamic One-Shot Policy Refinement [21.073482007189504]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示した。
検証可能な報酬(RLVR)の下での強化学習は、モデル行動と推論連鎖を整合させるための原則的な枠組みとして現れつつある。
その約束にもかかわらず、RLVRは厳しい資源集約であり、広範な報奨信号を必要とし、訓練中にかなりのロールアウトコストを発生させる。
論文 参考訳(メタデータ) (2026-01-31T16:51:50Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - RL in the Wild: Characterizing RLVR Training in LLM Deployment [43.81962834561768]
Reinforcement Learning with Verifiable Rewards (RLVR)は、その推論と理解能力を高めるために、ここ数ヶ月で急増している。
しかし、その複雑なデータフローと多様なタスクは、RLトレーニングシステムに重大な課題をもたらす。
システムの観点からは、RLVRの理解は限られている。
論文 参考訳(メタデータ) (2025-09-29T03:09:27Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - rStar2-Agent: Agentic Reasoning Technical Report [25.266747156205266]
rStar2-Agentは、エージェント強化学習を用いて訓練された14Bの数学推論モデルであり、フロンティアレベルの性能を実現する。
この目的のために、rStar2-Agentはトレーニング済みの14Bモデルを1週間以内に510RLのステップで最先端に引き上げ、平均パス@1スコアはAIME24で80.6%、AIME25で69.8%となる。
論文 参考訳(メタデータ) (2025-08-28T12:45:25Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Contrastive Representation for Interactive Recommendation [20.020630759453237]
対話型レコメンデーション(CRIR)のためのコントラスト表現を提案する。
CRIRは、明示的な相互作用から潜在的、高レベルな選好ランクの機能を効率的に抽出する。
また、CRIRを深層強化学習のバックボーンに適応させるためのデータ活用機構とエージェント訓練機構を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:39:23Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - TrajDeleter: Enabling Trajectory Forgetting in Offline Reinforcement Learning Agents [10.798271657186492]
本稿では、オフラインRLエージェントのための軌道学習のための最初の実践的アプローチであるTrajdeleterを提唱する。
Trajdeleterのキーとなるアイデアは、エージェントをガイドして、未学習の軌跡に関連する状態に遭遇した際のパフォーマンス低下を示すことである。
6つのオフラインRLアルゴリズムと3つのタスクで実施された大規模な実験は、トラジデレターがスクラッチから再トレーニングするのに必要な時間の約1.5%しか必要としていないことを示した。
論文 参考訳(メタデータ) (2024-04-18T22:23:24Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Hierarchical Program-Triggered Reinforcement Learning Agents For
Automated Driving [5.404179497338455]
Reinforcement Learning(RL)とDeep Learning(DL)の最近の進歩は、自動運転を含む複雑なタスクで印象的なパフォーマンスを示しています。
本稿では,構造化プログラムと複数のrlエージェントからなる階層構造を用いて,比較的単純なタスクを実行するように訓練した階層型プログラムトリガー型強化学習法を提案する。
検証の焦点はRLエージェントからの単純な保証の下でマスタープログラムにシフトし、複雑なRLエージェントよりも解釈可能で検証可能な実装となる。
論文 参考訳(メタデータ) (2021-03-25T14:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。