論文の概要: Aligning Flow Map Policies with Optimal Q-Guidance
- arxiv url: http://arxiv.org/abs/2605.12416v1
- Date: Tue, 12 May 2026 17:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.044149
- Title: Aligning Flow Map Policies with Optimal Q-Guidance
- Title(参考訳): 最適Qガイドによるフローマップの調整
- Authors: Christos Ziakas, Alessandra Russo, Avishek Joey Bose,
- Abstract要約: フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
- 参考スコア(独自算出の注目度): 50.514994916864275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative policies based on expressive model classes, such as diffusion and flow matching, are well-suited to complex control problems with highly multimodal action distributions. Their expressivity, however, comes at a significant inference cost: generating each action typically requires simulating many steps of the generative process, compounding latency across sequential decision-making rollouts. We introduce flow map policies, a novel class of generative policies designed for fast action generation by learning to take arbitrary-size jumps including one-step jumps-across the generative dynamics of existing flow-based policies. We instantiate flow map policies for offline-to-online reinforcement learning (RL) and formulate online adaptation as a trust-region optimization problem that improves the critic's Q-value while remaining close to the offline policy. We theoretically derive FLOW MAP Q-GUIDANCE (FMQ), a principled closed-form learning target that is optimal for adapting offline flow map policies under a critic-guided trust-region constraint. We further introduce Q-GUIDED BEAM SEARCH (QGBS), a stochastic flow-map sampler that combines renoising with beam search to enable iterative inference-time refinement. Across 12 challenging robotic manipulation and locomotion tasks from OGBench and RoboMimic, FMQ achieves state-of-the-art performance in offline-to-online RL, outperforming the previous one-step policy MVP by a relative improvement of 21.3% on the average success rate.
- Abstract(参考訳): 拡散やフローマッチングのような表現型モデルクラスに基づく生成ポリシーは、高度に多モーダルな作用分布を持つ複雑な制御問題に適している。
それぞれのアクションを生成するには、通常、生成プロセスの多くのステップをシミュレートする必要がある。
本稿では,フローマップポリシーを紹介する。フローマップポリシーは,既存のフローベースポリシーのジェネレーティブダイナミクスを横断する一段階のジャンプを含む任意のサイズのジャンプを学習することで,高速なアクション生成のために設計された新しいジェネレーティブポリシーである。
オフラインからオンラインへの強化学習(RL)のためのフローマップポリシをインスタンス化し、オンライン適応を信頼領域最適化問題として定式化し、オフラインポリシーに近づきながら批評家のQ値を改善する。
理論的にFLOW MAP Q-GUIDANCE (FMQ) を導出する。これは批判的信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な、原則化されたクローズドフォーム学習ターゲットである。
Q-GUIDED BEAM SEARCH (QGBS) についても紹介する。
OGBenchとRoboMimicのロボット操作と移動タスクに挑戦する12の課題の中で、FMQはオフラインからオフラインのRLにおける最先端のパフォーマンスを達成し、平均的な成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回った。
関連論文リスト
- Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Flow-Based Policy for Online Reinforcement Learning [34.86742824686496]
FlowRLは、フローベースのポリシー表現とWasserstein-2正規化最適化を統合する、オンライン強化学習のためのフレームワークである。
オンライン強化学習ベンチマークにおいて,FlowRLが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-15T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。