論文の概要: Boosting Maximum Entropy Reinforcement Learning via One-Step Flow Matching
- arxiv url: http://arxiv.org/abs/2602.01606v1
- Date: Mon, 02 Feb 2026 03:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.888372
- Title: Boosting Maximum Entropy Reinforcement Learning via One-Step Flow Matching
- Title(参考訳): ワンステップフローマッチングによる最大エントロピー強化学習の強化
- Authors: Zeqiao Li, Yijing Wang, Haoyu Wang, Zheng Li, Zhiqiang Zuo,
- Abstract要約: Flow Matching(FM)はワンステップ生成を可能にするが、Entropy Reinforcement Learning(MaxEnt RL)に統合することは難しい。
我々はこれらの課題に対処する原則的フレームワークである textbfFlow ベースの textbfLog-likelihood-textbfAware textbfMaximum textbfEntropy RL (textbfFLAME) を提案する。
- 参考スコア(独自算出の注目度): 8.665369041430969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies are expressive yet incur high inference latency. Flow Matching (FM) enables one-step generation, but integrating it into Maximum Entropy Reinforcement Learning (MaxEnt RL) is challenging: the optimal policy is an intractable energy-based distribution, and the efficient log-likelihood estimation required to balance exploration and exploitation suffers from severe discretization bias. We propose \textbf{F}low-based \textbf{L}og-likelihood-\textbf{A}ware \textbf{M}aximum \textbf{E}ntropy RL (\textbf{FLAME}), a principled framework that addresses these challenges. First, we derive a Q-Reweighted FM objective that bypasses partition function estimation via importance reweighting. Second, we design a decoupled entropy estimator that rigorously corrects bias, which enables efficient exploration and brings the policy closer to the optimal MaxEnt policy. Third, we integrate the MeanFlow formulation to achieve expressive and efficient one-step control. Empirical results on MuJoCo show that FLAME outperforms Gaussian baselines and matches multi-step diffusion policies with significantly lower inference cost. Code is available at https://github.com/lzqw/FLAME.
- Abstract(参考訳): 拡散ポリシーは表現力があるが、高い推論遅延を引き起こす。
フローマッチング(FM)はワンステップ生成を可能にするが、最大エントロピー強化学習(MaxEnt RL)に統合することは困難である。
本稿では,これらの課題に対処する原則的フレームワークであるtextbf{F}low-based \textbf{L}og-likelihood-\textbf{A}ware \textbf{M}aximum \textbf{E}ntropy RL (\textbf{FLAME})を提案する。
まず、重要度再重み付けによる分割関数推定を回避したQ-reweighted FMの目的を導出する。
第二に、偏りを厳格に補正する分離エントロピー推定器を設計し、効率的な探索を可能にし、最適なMaxEntポリシーにポリシーを近づける。
第3に,表現的かつ効率的なワンステップ制御を実現するために,MeanFlowの定式化を統合する。
MuJoCo の実証実験の結果,FLAME はガウスのベースラインより優れ,多段階拡散ポリシーと推定コストが著しく低いことが示唆された。
コードはhttps://github.com/lzqw/FLAME.comで入手できる。
関連論文リスト
- Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies [4.249024052507976]
本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
論文 参考訳(メタデータ) (2026-01-13T01:58:24Z) - A Diffusion Model Framework for Maximum Entropy Reinforcement Learning [32.26181994745642]
拡散力学を原理的に組み込んだ MaxEntRL の置換対象を修正した。
DiffSAC, DiffPPO, DiffWPO は, SAC や PPO よりも良いリターンと高いサンプル効率を実現する。
論文 参考訳(メタデータ) (2025-12-01T18:59:58Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [38.17326719163195]
拡散に基づく最大エントロピーRL(DIME)
emphDIMEは拡散モデルによる近似推論の最近の進歩を活用し、最大エントロピー目標の下位境界を導出する。
提案手法は,MaxEnt-RLの原理的探索利益を維持しつつ,表現的拡散に基づくポリシの利用を可能にする。
論文 参考訳(メタデータ) (2025-02-04T13:37:14Z) - Sampling from Energy-based Policies using Diffusion [18.135501150108894]
エネルギーベースのポリシーは、強化学習における複雑なマルチモーダルな振る舞いをモデル化するための柔軟なフレームワークを提供する。
既存の手法では、政策表現にガウスのような単純なパラメトリック分布を用いるのが一般的である。
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。