論文の概要: Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards
- arxiv url: http://arxiv.org/abs/2506.11425v1
- Date: Fri, 13 Jun 2025 02:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.637803
- Title: Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards
- Title(参考訳): Agent-RLVR: ガイダンスと環境リワードによるソフトウェアエンジニアリングエージェントのトレーニング
- Authors: Jeff Da, Clinton Wang, Xiang Deng, Yuntao Ma, Nikhil Barhate, Sean Hendryx,
- Abstract要約: 本稿では,エージェント設定に挑戦する上で,RLVRを効果的にするためのフレームワークであるAgent-RLVRを紹介する。
エージェント-RLVRは、人間の教育にインスパイアされ、エージェント誘導(エージェント誘導)を導入している。
ガイダンスを付加したRLVRデータは、テストタイム報酬モデルトレーニングにも役立ち、さらにpass@1を27.8%に向上させることで示されています。
- 参考スコア(独自算出の注目度): 8.390219473444446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has been widely adopted as the de facto method for enhancing the reasoning capabilities of large language models and has demonstrated notable success in verifiable domains like math and competitive programming tasks. However, the efficacy of RLVR diminishes significantly when applied to agentic environments. These settings, characterized by multi-step, complex problem solving, lead to high failure rates even for frontier LLMs, as the reward landscape is too sparse for effective model training via conventional RLVR. In this work, we introduce Agent-RLVR, a framework that makes RLVR effective in challenging agentic settings, with an initial focus on software engineering tasks. Inspired by human pedagogy, Agent-RLVR introduces agent guidance, a mechanism that actively steers the agent towards successful trajectories by leveraging diverse informational cues. These cues, ranging from high-level strategic plans to dynamic feedback on the agent's errors and environmental interactions, emulate a teacher's guidance, enabling the agent to navigate difficult solution spaces and promotes active self-improvement via additional environment exploration. In the Agent-RLVR training loop, agents first attempt to solve tasks to produce initial trajectories, which are then validated by unit tests and supplemented with agent guidance. Agents then reattempt with guidance, and the agent policy is updated with RLVR based on the rewards of these guided trajectories. Agent-RLVR elevates the pass@1 performance of Qwen-2.5-72B-Instruct from 9.4% to 22.4% on SWE-Bench Verified. We find that our guidance-augmented RLVR data is additionally useful for test-time reward model training, shown by further boosting pass@1 to 27.8%. Agent-RLVR lays the groundwork for training agents with RLVR in complex, real-world environments where conventional RL methods struggle.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を高めるデファクト手法として広く採用されており、数学や競合プログラミングタスクのような検証可能な領域で顕著な成功を収めている。
しかし, エージェント環境に適用した場合, RLVRの有効性は著しく低下する。
これらの設定は、多段階の複雑な問題解決を特徴とし、従来のRLVRによる効果的なモデルトレーニングには、報酬のランドスケープが小さすぎるため、フロンティアのLLMに対しても高い失敗率をもたらす。
本稿では,RLVRをエージェント設定に挑戦する上で効果的にするフレームワークであるAgent-RLVRを紹介する。
エージェント-RLVRは、人間の教育にインスパイアされたエージェント誘導(エージェント誘導)を導入し、多様な情報手段を活用することで、エージェントを軌道上の成功に向けて積極的に操縦するメカニズムである。
これらの方法は、高レベルの戦略計画からエージェントのエラーや環境相互作用に対する動的フィードバックまで幅広いもので、教師の指導をエミュレートし、エージェントが困難なソリューション空間をナビゲートし、追加の環境探索を通じてアクティブな自己改善を促進する。
Agent-RLVRトレーニングループでは、エージェントが最初の軌道を生成するタスクを最初に解決しようと試み、ユニットテストによって検証され、エージェントガイダンスが補完される。
その後、エージェントはガイダンスで再試行し、エージェントポリシーはこれらのガイドされた軌跡の報酬に基づいてRLVRで更新される。
Agent-RLVRは、Qwen-2.5-72B-InstructのパフォーマンスをSWE-Bench Verified上で9.4%から22.4%に向上させる。
ガイダンスを付加したRLVRデータは、テストタイム報酬モデルトレーニングにも役立ち、さらにpass@1を27.8%に向上させることで示されています。
Agent-RLVRは、従来のRLメソッドが苦労する複雑な現実世界環境において、RLVRを使用したトレーニングエージェントの基盤となる。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Contrastive Representation for Interactive Recommendation [20.020630759453237]
対話型レコメンデーション(CRIR)のためのコントラスト表現を提案する。
CRIRは、明示的な相互作用から潜在的、高レベルな選好ランクの機能を効率的に抽出する。
また、CRIRを深層強化学習のバックボーンに適応させるためのデータ活用機構とエージェント訓練機構を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:39:23Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - TrajDeleter: Enabling Trajectory Forgetting in Offline Reinforcement Learning Agents [10.798271657186492]
本稿では、オフラインRLエージェントのための軌道学習のための最初の実践的アプローチであるTrajdeleterを提唱する。
Trajdeleterのキーとなるアイデアは、エージェントをガイドして、未学習の軌跡に関連する状態に遭遇した際のパフォーマンス低下を示すことである。
6つのオフラインRLアルゴリズムと3つのタスクで実施された大規模な実験は、トラジデレターがスクラッチから再トレーニングするのに必要な時間の約1.5%しか必要としていないことを示した。
論文 参考訳(メタデータ) (2024-04-18T22:23:24Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Hierarchical Program-Triggered Reinforcement Learning Agents For
Automated Driving [5.404179497338455]
Reinforcement Learning(RL)とDeep Learning(DL)の最近の進歩は、自動運転を含む複雑なタスクで印象的なパフォーマンスを示しています。
本稿では,構造化プログラムと複数のrlエージェントからなる階層構造を用いて,比較的単純なタスクを実行するように訓練した階層型プログラムトリガー型強化学習法を提案する。
検証の焦点はRLエージェントからの単純な保証の下でマスタープログラムにシフトし、複雑なRLエージェントよりも解釈可能で検証可能な実装となる。
論文 参考訳(メタデータ) (2021-03-25T14:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。