論文の概要: Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy
- arxiv url: http://arxiv.org/abs/2605.13435v1
- Date: Wed, 13 May 2026 12:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.041372
- Title: Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy
- Title(参考訳): Q-Flow:フローベースのポリシによる安定的で表現力豊かな強化学習
- Authors: JaeHyeok Doo, Byeongguk Jeon, Seonghyeon Ye, Kimin Lee, Minjoon Seo,
- Abstract要約: Q-Flowは、フローダイナミクスの決定論的性質を利用して、ポリシーによって引き起こされるフローに沿って遅延状態を明確に伝播するフレームワークである。
OGBenchスイートのオフライン学習環境でのQ-Flowの評価では,最先端のベースラインを平均10.6ポイント上回っている。
- 参考スコア(独自算出の注目度): 51.31164293751206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in utilizing flow-based models as decision-making policies in reinforcement learning due to their high expressive capacity. However, effectively leveraging this expressivity for value maximization remains challenging, as naive gradient-based optimization requires backpropagating through numerical solvers and often leads to instability. Existing approaches typically address this issue by restricting the expressive capacity of flow-based policies, resulting in a trade-off between optimization stability and representational flexibility. To resolve this, we introduce Q-Flow, a framework that leverages the deterministic nature of flow dynamics to explicitly propagate terminal trajectory value to intermediate latent states along the policy-induced flow. This formulation enables stable policy optimization using intermediate value gradients without unrolling the numerical solver, effectively bridging the gap between stability and expressivity. We evaluate Q-Flow in the offline learning setting on the challenging OGBench suite, where it consistently outperforms state-of-the-art baselines by an average of 10.6 percentage points, while also enabling stable online adaptation within the same framework.
- Abstract(参考訳): 高表現力による強化学習における意思決定政策としてのフローベースモデルの利用への関心が高まっている。
しかし、この表現率を値の最大化に効果的に活用することは依然として困難であり、単純勾配に基づく最適化は数値解法による逆伝播を必要とし、しばしば不安定となる。
既存のアプローチでは、フローベースのポリシーの表現能力を制限することでこの問題に対処し、最適化の安定性と表現の柔軟性のトレードオフをもたらす。
この問題を解決するために,フローダイナミクスの決定論的性質を利用したQ-Flowを導入する。
この定式化により、数値解法を外すことなく中間値勾配を用いて安定した政策最適化が可能となり、安定性と表現率のギャップを効果的に埋めることができる。
我々は、挑戦的なOGBenchスイートのオフライン学習環境でQ-Flowを評価し、最先端のベースラインを平均10.6ポイント上回り、同じフレームワーク内で安定したオンライン適応を可能にする。
関連論文リスト
- An Actor-Critic Framework for Continuous-Time Jump-Diffusion Controls with Normalizing Flows [10.996737071400004]
時間的不均一なジャンプ拡散ダイナミクスによる連続的な時間制御は、金融と経済の中心である。
エントロピー規則化制御問題やジャンプを伴うゲームに対して,メッシュフリーな解法として機能するアクタ批判フレームワークを提案する。
本稿では,時間不均一な線形四元数制御,メルトンポートフォリオ最適化,マルチエージェントポートフォリオゲームについて検証する。
論文 参考訳(メタデータ) (2026-04-07T03:49:08Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning [6.836651088754774]
PolicyFlowは、CNFベースの強化学習アルゴリズムである。
表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。
PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
論文 参考訳(メタデータ) (2026-02-01T11:08:09Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Benchmarking Autoregressive Conditional Diffusion Models for Turbulent Flow Simulation [26.520247496906492]
本研究では,条件付き拡散モデルに基づく自動回帰ロールアウトを利用した完全データ駆動型流体解法が,この問題に対処するための有効な選択肢であるかどうかを解析する。
各種流速予測手法の性能を定量的に定性的に評価するために, 非圧縮性および超音速流を含む3つの難解な2次元シナリオと等方性乱流を用いる。
単純な拡散に基づくアプローチであっても、トレーニング時のアンロールのような最先端の安定化技術と同等でありながら、精度と時間的安定性の観点から、複数の確立したフロー予測手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-09-04T18:01:42Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。