論文の概要: RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
- arxiv url: http://arxiv.org/abs/2602.02488v1
- Date: Mon, 02 Feb 2026 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.391275
- Title: RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
- Title(参考訳): RLAnything: 完全に動的RLシステムにおけるフォワード環境、ポリシー、リワードモデル
- Authors: Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang,
- Abstract要約: クローズドループ最適化により環境・ポリシー・報酬モデルを構築する強化学習フレームワークであるRLAnythingを提案する。
具体的には、ポリシーはステップワイドおよび結果信号からの総合的なフィードバックで訓練される。
理論を動機とした自動環境適応は、報酬モデルと政策モデルの両方のトレーニングを改善する。
- 参考スコア(独自算出の注目度): 52.3348044324205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RLAnything, a reinforcement learning framework that dynamically forges environment, policy, and reward models through closed-loop optimization, amplifying learning signals and strengthening the overall RL system for any LLM or agentic scenarios. Specifically, the policy is trained with integrated feedback from step-wise and outcome signals, while the reward model is jointly optimized via consistency feedback, which in turn further improves policy training. Moreover, our theory-motivated automatic environment adaptation improves training for both the reward and policy models by leveraging critic feedback from each, enabling learning from experience. Empirically, each added component consistently improves the overall system, and RLAnything yields substantial gains across various representative LLM and agentic tasks, boosting Qwen3-VL-8B-Thinking by 9.1% on OSWorld and Qwen2.5-7B-Instruct by 18.7% and 11.9% on AlfWorld and LiveBench, respectively. We also that optimized reward-model signals outperform outcomes that rely on human labels. Code: https://github.com/Gen-Verse/Open-AgentRL
- Abstract(参考訳): RLAnythingは環境、ポリシー、報酬モデルを動的に鍛え、クローズドループ最適化、学習信号の増幅、LLMやエージェントのシナリオに対する総合的なRLシステムの強化により強化する強化学習フレームワークである。
具体的には、ポリシーはステップワイドおよび結果信号からの総合的なフィードバックでトレーニングされ、報酬モデルは一貫性フィードバックによって共同最適化され、それによってポリシートレーニングがさらに改善される。
さらに,理論を動機とした自動環境適応は,評価フィードバックの活用によって報酬モデルと政策モデルの両方のトレーニングを改善し,経験から学ぶことを可能にした。
RLAnythingはOSWorldではQwen3-VL-8B-Thinkingが9.1%、AlfWorldではQwen2.5-7B-Instructが18.7%、LiveBenchでは11.9%向上した。
また、最適化された報酬モデル信号は、人間のラベルに依存する結果よりも優れています。
コード:https://github.com/Gen-Verse/Open-AgentRL
関連論文リスト
- RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments [111.87296453908199]
適応検証環境(RLVE)を用いた強化学習の導入
RLVEは、各検証可能な環境が、トレーニングが進むにつれて、問題の難易度分布をポリシーモデルの能力に動的に適応させることを可能にする。
環境スケーリング,すなわち,トレーニング環境の収集を拡大することで,推論能力が継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-10T17:18:35Z) - RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs [20.084201133669534]
マルチエージェントシステム(MAS)と強化学習(RL)は,大規模言語モデル(LLM)のエージェント能力を高めるために広く利用されている。
政治上のRLをMASに適用することはまだ未熟であり、ユニークな課題を提示している。
我々は,エージェントとターンワイドなグループ化RLアルゴリズムをMASに適合させるAT-GRPOと,単一・複数政治体制をサポートするトレーニングシステムを提案する。
論文 参考訳(メタデータ) (2025-10-13T06:55:09Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving [1.3107174618549584]
自動運転政策を学習するための強化学習(RL)に基づく手法は、自動運転コミュニティにおいて注目を集めている。
従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
我々は、事前訓練された視覚言語モデル(VLM)とRLを統合して報酬信号を生成する統合フレームワークである textbfVLM-RL を提案する。
論文 参考訳(メタデータ) (2024-12-20T04:08:11Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。