論文の概要: RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
- arxiv url: http://arxiv.org/abs/2510.10201v1
- Date: Sat, 11 Oct 2025 13:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.839696
- Title: RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
- Title(参考訳): RLFR:フロー環境を考慮したLLMの強化学習
- Authors: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における推論能力向上のための有望なフレームワークとして登場した。
本稿では, モデル潜水剤の流れ場を, オフ・ポリティクス・高品質データとオン・ポリティクス・リジェクション・サンプリングデータから構築し, その内部の政策潜水剤の速度偏差を定量化し, 報酬信号として機能するRLFRを提案する。
言語およびマルチモーダル推論ベンチマークの実験は、フロー報酬の信頼性を示す。
- 参考スコア(独自算出の注目度): 29.409251059248643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a promising framework for improving reasoning abilities in Large Language Models (LLMs). However, policy optimized with binary verification prone to overlook potential valuable exploration in reasoning trajectory. In view of heavy annotation cost of golden Process Reward Models (PRMs), recent works attempt using auxiliary signals for reward shaping of process tokens, involving entropy and likelihood collected from logit space. In this work, we offer a novel perspective on shaping RLVR with flow rewards derived from latent space, and propose RLFR, where the flow fields of model latents are constructed from either off-policy high-quality data and on-policy rejection sampling data, and the velocity deviations of policy latents within it are quantified to serve as a reward signal. RLFR first demonstrates that a well-established flow field can be a sound environment for reward signal collection, highlighting the expressive latent space is much underexplored. Moreover, RLFR is able to compress any off-policy expert data as reference for constituting reward signals, and we show that the efficient context dependence compressed within the hidden states are utilized, rather than individual token-level denotation for context comprehending. Experiments on both language and multimodal reasoning benchmarks demonstrate the reliability of flow rewards, and suggesting a promising paradigm for reward shaping with auxiliary signals.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、LLM(Large Language Models)における推論能力を改善するための有望なフレームワークとして登場した。
しかし、二分検証に最適化されたポリシーは、軌道の推論において潜在的に価値のある探索を見落としてしまう。
金のプロセスリワードモデル(PRM)の重いアノテーションコストを考慮すると、最近の研究は、プロセストークンの報酬形成に補助信号を使用し、エントロピーやロジット空間から収集される可能性を含む。
本研究では、潜在空間から得られるフロー報酬を伴うRLVRの創成に関する新しい視点を提供し、また、モデル潜在者のフローフィールドを、オフ・ポリティクスの高品質データとオン・ポリティクスの拒絶サンプリングデータから構築し、その内部の政策潜在者の速度偏差を定量化し、報酬信号として機能するRLFRを提案する。
RLFRはまず、確立された流れ場が報奨信号収集のための音環境になりうることを実証し、表現的な潜伏空間がはるかに過小評価されていることを強調した。
さらに、RLFRは、報酬信号を構成するための基準として、任意の非政治専門家データを圧縮することができ、隠れた状態内で圧縮された効率的なコンテキスト依存が、コンテキストの解釈のための個々のトークンレベル記述よりも活用されていることを示す。
言語およびマルチモーダル推論ベンチマークの実験は、フロー報酬の信頼性を示し、補助信号による報酬形成のための有望なパラダイムを提案する。
関連論文リスト
- ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。