論文の概要: Flow Matching Policy with Entropy Regularization
- arxiv url: http://arxiv.org/abs/2603.17685v1
- Date: Wed, 18 Mar 2026 13:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.708672
- Title: Flow Matching Policy with Entropy Regularization
- Title(参考訳): エントロピー規則化によるフローマッチング
- Authors: Ting Gao, Stavros Orfanoudakis, Nan Lin, Elvin Isufi, Winnie Daamen, Serge Hoogendoorn,
- Abstract要約: Flow Matching Policy with Entropy Regularization (FMER)は、通常の微分方程式(ODE)ベースのオンラインRLフレームワークである。
FMERは、フローマッチングを通じてポリシーをパラメータ化し、最適な輸送によって動機付けられたストレートな確率経路に沿ってアクションをサンプリングする。
スパースマルチゴールのFrankaKitchenベンチマークの実験は、FMERが最先端の手法より優れていることを示した。
- 参考スコア(独自算出の注目度): 16.47598359293598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based policies have gained significant popularity in Reinforcement Learning (RL) due to their ability to represent complex, non-Gaussian distributions. Stochastic Differential Equation (SDE)-based diffusion policies often rely on indirect entropy control due to the intractability of the exact entropy, while also suffering from computationally prohibitive policy gradients through the iterative denoising chain. To overcome these issues, we propose Flow Matching Policy with Entropy Regularization (FMER), an Ordinary Differential Equation (ODE)-based online RL framework. FMER parameterizes the policy via flow matching and samples actions along a straight probability path, motivated by optimal transport. FMER leverages the model's generative nature to construct an advantage-weighted target velocity field from a candidate set, steering policy updates toward high-value regions. By deriving a tractable entropy objective, FMER enables principled maximum-entropy optimization for enhanced exploration. Experiments on sparse multi-goal FrankaKitchen benchmarks demonstrate that FMER outperforms state-of-the-art methods, while remaining competitive on standard MuJoco benchmarks. Moreover, FMER reduces training time by 7x compared to heavy diffusion baselines (QVPO) and 10-15% relative to efficient variants.
- Abstract(参考訳): 拡散に基づく政策は、複雑な非ガウス分布を表現できるため、強化学習(RL)において大きな人気を得ている。
確率微分方程式 (SDE) に基づく拡散ポリシーは、しばしば、正確なエントロピーの誘引性のために間接エントロピー制御に依存し、同時に反復的デノジング連鎖を通して計算的に禁止されるポリシー勾配に悩まされる。
これらの問題を解決するために,通常微分方程式(ODE)に基づくオンラインRLフレームワークであるFMER(Flow Matching Policy with Entropy Regularization)を提案する。
FMERは、フローマッチングを通じてポリシーをパラメータ化し、最適な輸送によって動機付けられたストレートな確率経路に沿ってアクションをサンプリングする。
FMERはモデルの生成特性を利用して、候補集合から有利に重み付けられた目標速度場を構築し、ポリシー更新を高値領域に向けて操る。
トラクタブルエントロピーの目的を導出することにより、FMERは探索強化のための原理化された最大エントロピー最適化を可能にする。
スパースマルチゴールのFrankaKitchenベンチマークの実験は、FMERが標準のMuJocoベンチマークで競争力を維持しながら最先端の手法より優れていることを示した。
さらに、FMERは、高拡散基線(QVPO)と比較してトレーニング時間を7倍に短縮し、効率の良い変種に対して10~15%削減する。
関連論文リスト
- SiMPO: Measure Matching for Online Diffusion Reinforcement Learning [52.46919717963149]
一般単調関数を持つ拡散RLにおける再重み付けスキームを一般化する,シンプルで統一的なフレームワークであるSiMPOを紹介する。
SiMPOは2段階の測度マッチングレンズを介して拡散RLを再考する。
我々は、負の再重み付けが準最適行動から政策を積極的に反映していることを示す幾何学的解釈を提供する。
論文 参考訳(メタデータ) (2026-03-10T22:01:13Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning [6.836651088754774]
PolicyFlowは、CNFベースの強化学習アルゴリズムである。
表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。
PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
論文 参考訳(メタデータ) (2026-02-01T11:08:09Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning [11.0460569590737]
本稿では,オフライン強化学習(RL)のための訓練拡散政策の高度技術について述べる。
我々は、SDEが、オフラインデータセットの探索を改善するエントロピー正則化器(Entropy regularizer)を生成することで、ポリシーのログ確率を計算するのに使用できるソリューションを持っていることを示す。
オフラインRLにおけるエントロピー正規化拡散ポリシーとQアンサンブルを組み合わせることで,D4RLベンチマークのほとんどのタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T15:34:30Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。