論文の概要: Reinforcement Learning via Value Gradient Flow
- arxiv url: http://arxiv.org/abs/2604.14265v1
- Date: Wed, 15 Apr 2026 17:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.958271
- Title: Reinforcement Learning via Value Gradient Flow
- Title(参考訳): バリューグラディエントフローによる強化学習
- Authors: Haoran Xu, Kaiwen Hu, Somayeh Sojoudi, Amy Zhang,
- Abstract要約: 本稿では,参照分布に対する正規化が重要となる行動規則化強化学習(RL)について検討する。
本稿では、振る舞い規則化RLのためのスケーラブルな新しいパラダイムであるValue Gradient Flow (VGF)を提案する。
VGFは、行動規則化されたRLを、基準分布を値誘導の最適ポリシー分布にマッピングする最適な輸送問題とみなす。
- 参考スコア(独自算出の注目度): 32.59594977900539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study behavior-regularized reinforcement learning (RL), where regularization toward a reference distribution (the dataset in offline RL or the base model in LLM RL finetuning) is essential to prevent value over-optimization caused by erroneous out-of-distribution extrapolation. Existing methods either rely on reparameterized policy gradient, which are difficult to scale to large generative models, or on reject sampling, which can be overly conservative when attempting to move beyond the behavior support. In this paper, we propose Value Gradient Flow (VGF), a scalable new paradigm for behavior-regularized RL. VGF casts behavior-regularized RL as an optimal transport problem that maps the reference distribution to the value-induced optimal policy distribution. We solve this transport problem via discrete gradient flow, where value gradients guide particles initialized from the reference distribution. Our analysis shows that VGF imposes regularization implicitly by controlling the transport budget. VGF eliminates explicit policy parameterization while remaining expressive and flexible, this enables adaptive test-time scaling by adjusting the transport budget. Extensive experiments demonstrate that VGF significantly outperforms prior methods, achieving state-of-the-art results on offline RL benchmarks (D4RL, OGBench) and LLM RL tasks. Code and runs can be found at https://ryanxhr.github.io/vgf.
- Abstract(参考訳): 本稿では,参照分布(オフラインRLのデータセットやLLM RLファインタニングのベースモデル)に対する正規化が,誤分布外挿による過度な最適化を防止するために不可欠である行動規則化強化学習(RL)について検討する。
既存の方法は、大規模な生成モデルへのスケーリングが困難である再パラメータ化ポリシー勾配に依存するか、あるいはリジェクションサンプリングに頼っている。
本稿では、振る舞い規則化RLのためのスケーラブルな新しいパラダイムであるValue Gradient Flow (VGF)を提案する。
VGFは、行動規則化されたRLを、基準分布を値誘導の最適ポリシー分布にマッピングする最適な輸送問題とみなす。
我々はこの輸送問題を離散勾配流を用いて解き、そこでは値勾配が参照分布から初期化される粒子を導く。
分析の結果,VGFは輸送予算を制御することによって,暗黙的に正規化を課していることが明らかとなった。
VGFは、表現力と柔軟性を維持しながら明確なポリシーパラメータ化を排除し、トランスポート予算を調整することで、適応的なテストタイムスケーリングを可能にする。
大規模な実験により、VGFは、オフラインRLベンチマーク(D4RL、OGBench)およびLLM RLタスクにおいて、最先端の結果を達成し、先行手法を著しく上回ることを示した。
コードと実行はhttps://ryanxhr.github.io/vgf.orgで確認できる。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Toward Adaptive Grid Resilience: A Gradient-Free Meta-RL Framework for Critical Load Restoration [6.573424608566227]
強化学習は、不確実性の下でのシーケンシャルな決定を最適化することができる。
標準RLは、しばしばあまり一般化せず、新しい停止設定や生成パターンのために広範囲のトレーニングを必要とする。
本稿では,過去の障害経験から移行可能な初期化を学習するメタガイド付きグラデーションフリーなRLフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-16T03:36:07Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models [29.090093552573766]
本稿では,VLA(Vision-Language-Action)フローモデルに対するオフラインRLポストトレーニング目標を提案する。
次に、効率よく実現可能なオフラインRL微調整アルゴリズム -- Adaptive Reinforced Flow Matching (ARFM) を誘導する。
ARFMは優れた一般化、堅牢性、少数ショット学習、継続的な学習性能を示す。
論文 参考訳(メタデータ) (2025-09-04T09:48:43Z) - Relative Trajectory Balance is equivalent to Trust-PCL [72.58731629381032]
Relative Trajectory Balance (RTB) は、逐次生成モデルの微調整を改善することを目的としている。
本稿は,KL正則化を用いた非政治RL法であるRTBとTrust-PCLの等価性を確立する。
論文 参考訳(メタデータ) (2025-09-01T17:17:25Z) - Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。
オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。
本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。
タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T14:08:36Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Generative Modeling with Flow-Guided Density Ratio Learning [12.192867460641835]
Flow-Guided Density Ratio Learning (FDRL)は、生成モデルに対するシンプルでスケーラブルなアプローチである。
我々は,FDRLが128時間128ドルの高次元の画像を生成するとともに,既存の勾配流ベースラインを定量的なベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-07T07:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。