論文の概要: FBOS-RL: Feedback-Driven Bi-Objective Synergistic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.20256v1
- Date: Mon, 18 May 2026 12:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.241827
- Title: FBOS-RL: Feedback-Driven Bi-Objective Synergistic Reinforcement Learning
- Title(参考訳): FBOS-RL:フィードバック駆動型双方向合成強化学習
- Authors: Xikai Zhang, Yongzhi Li, Likang Xiao, Yingze Zhang, Yanhua Cheng, Quan Chen, Peng Jiang, Wenjun Wu, Liu Liu,
- Abstract要約: フィードバック駆動型双方向強化学習フレームワークFBOS-RLを提案する。
具体的には、環境からのフィードバックに基づいて、フィードバックガイドによる探索強化を行う。
同じロールアウト数で、FBOS-RLはGRPOやフィードバックベースのベースラインよりもかなり高速に学習する。
- 参考スコア(独自算出の注目度): 16.200486964371713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has become a cornerstone for aligning and unlocking the reasoning capabilities of large-scale models. At its core, the training loop of GRPO and its variants alternates between rollout sampling and policy update. Unlike supervised learning, where each gradient step is anchored to an explicit ground-truth target, the optimal gradient direction for updating model parameters in this setting is not known a priori; the high-quality rollouts drawn during the sampling stage therefore act as the implicit "teacher" that guides every parameter update. However, GRPO adopt a simple sampling scheme that conditions all rollouts on the same original prompt. When a task lies beyond the policy model's current capability, this sampling scheme rarely yields a high-quality rollout, leaving the policy model without a meaningful gradient direction when updating its parameters, which causes training to stall. To address this issue, we propose FBOS-RL, a Feedback-Driven Bi-Objective Synergistic reinforcement learning framework. Specifically, we let the model perform Feedback-Guided Exploration Enhancement based on the feedback provided by the environment, and on top of this we design two mutually reinforcing training objectives: Exploitation-oriented Policy Alignment(EPA) and Exploration-oriented Capability Cultivation(ECC). Extensive experiments demonstrate that EPA and ECC can mutually reinforce each other, forming a positive flywheel effect that significantly improves both the training efficiency and the final performance ceiling of reinforcement learning. Specifically, under an identical number of rollouts, FBOS-RL learns substantially faster than GRPO and feedback-based baselines and ultimately attains a higher performance ceiling, while exhibiting higher policy entropy and lower gradient norms throughout training.
- Abstract(参考訳): 強化学習は、大規模モデルの推論能力の整合とアンロックの基盤となっている。
GRPOのトレーニングループとその変種は、ロールアウトサンプリングとポリシー更新の間で交互に行われる。
教師付き学習とは異なり、各勾配ステップが明示的な接地構造目標に固定されている場合とは異なり、この設定でモデルパラメータを更新するための最適勾配方向はプリオリとは知られておらず、サンプリング段階で引き出された高品質なロールアウトは、全てのパラメータ更新をガイドする暗黙的な「教師」として機能する。
しかし、GRPOは単純なサンプリング方式を採用し、全てのロールアウトを同じプロンプトで条件付ける。
タスクが政策モデルの現在の能力を超えている場合、このサンプリングスキームは高品質なロールアウトをもたらすことは滅多になく、パラメータを更新する際に意味のある勾配方向を保たず、トレーニングが停止する。
この問題に対処するため,フィードバック駆動型双方向強化学習フレームワークFBOS-RLを提案する。
具体的には、環境からのフィードバックに基づいて、モデルにフィードバックガイドによる探索強化を施し、その上で、エクスプロイテーション指向の政策調整(EPA)とエクスプロレーション指向の能力育成(ECC)の2つの訓練目標を相互に強化する。
広範な実験によりEPAとECCは相互に強化できることが示され、トレーニング効率と強化学習の最終的な性能天井の両方を著しく改善する正のフライホイール効果が形成される。
具体的には、同じロールアウト数で、FBOS-RLはGRPOやフィードバックベースのベースラインよりも大幅に高速に学習し、最終的により高い性能の天井に達すると同時に、トレーニング全体を通して高いポリシーエントロピーと低い勾配ノルムを示す。
関連論文リスト
- Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping [66.25536973294726]
テキスト・トゥ・イメージ(T2I)モデルのポストトレーニング手法はハッキングに報いる傾向がある。
SLAS(Super-Linear Advantage Shaping)は、地方政策の分野を再考する。
SLASは、DanceGRPOベースラインを複数のバックボーンとベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-11T17:59:25Z) - Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning [44.07085022671951]
新しい勾配方向を導入する軌道は、有界乗算型報酬スケーラを受信する。
G2RLは、エントロピーベースのGRPOおよび外部埋め込みメソッドよりも、pass@1、maj@16、pass@kを一貫して改善する。
論文 参考訳(メタデータ) (2025-12-17T18:44:45Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。