論文の概要: Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent
- arxiv url: http://arxiv.org/abs/2605.21282v2
- Date: Thu, 21 May 2026 06:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.918272
- Title: Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent
- Title(参考訳): 確率的平均フローポリシ:エントロピックミラーの老化によるワンステップ生成制御
- Authors: Zeyuan Wang, Da Li, Yulin Chen, Yuehu Gong, Yanming Guo, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu,
- Abstract要約: オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。
我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。
7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
- 参考スコア(独自算出の注目度): 53.828537014796574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online off-policy reinforcement learning (RL) is shaped by two coupled choices: the policy class and the update rule. Gaussian policies are fast and have tractable entropy, but struggle with multimodal action distributions. Generative policies are more expressive, but often require iterative sampling or lack tractable entropy estimates. On the optimisation side, SAC-style soft policy improvement and mirror descent (MD) can be viewed as minimising different KL divergences: the former moves the policy towards a value-induced Boltzmann distribution, while the latter regularises each update against the previous policy. Combining entropy regularisation with an MD constraint is therefore attractive, as it supports exploration while stabilising policy improvement; however, the resulting target can be multimodal and is poorly matched by unimodal Gaussian policies. We propose Stochastic MeanFlow Policies (SMFP), a one-step generative policy class that maps Gaussian noise to actions through a MeanFlow transformation. This stochastic reparameterisation yields a tractable entropy surrogate and allows MeanFlow policies to be trained within off-policy mirror descent under a unified objective for exploratory yet stable improvement. Across seven MuJoCo benchmarks, SMFP improves over Gaussian and generative baselines while retaining single-step inference efficiency.
- Abstract(参考訳): オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールという2つの組み合わせの選択肢によって構成されている。
ガウスのポリシーは高速で、トラクタブルなエントロピーを持つが、マルチモーダルな作用分布に苦しむ。
生成ポリシーはより表現力があるが、しばしば反復的なサンプリングを必要とする。
最適化側では、SACスタイルのソフトポリシー改善とミラー降下(MD)は異なるKLの分岐を最小限に抑えるものと見なすことができる。
したがって、エントロピー正規化とMD制約を組み合わせることは、政策改善を安定化しながら探索を支援するため魅力的である。
本稿では,Stochastic MeanFlow Policies (SMFP)を提案する。
この確率的再パラメータ化により、トラクタブルエントロピーサロゲートが得られ、探索的かつ安定した改善のための統一的な目的の下で、MeanFlowのポリシーを非政治ミラーの下位で訓練することができる。
7つのMuJoCoベンチマークで、SMFPは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインよりも改善されている。
関連論文リスト
- A Single Deep Preference-Conditioned Policy for Learning Pareto Coverage Sets [0.4369550829556578]
非線形スカラー化下での優先-解決対応の特異性と連続性について検討した。
この問題を解決するために,スムーズなTchebycheffスカラー化を単調な効用として用いた。
各更新は、以前のポリシーを参考に、Kullback-Leibler-regularized MDPの解決と等価であることを示す。
論文 参考訳(メタデータ) (2026-05-09T13:35:50Z) - Flow Matching Policy with Entropy Regularization [16.47598359293598]
Flow Matching Policy with Entropy Regularization (FMER)は、通常の微分方程式(ODE)ベースのオンラインRLフレームワークである。
FMERは、フローマッチングを通じてポリシーをパラメータ化し、最適な輸送によって動機付けられたストレートな確率経路に沿ってアクションをサンプリングする。
スパースマルチゴールのFrankaKitchenベンチマークの実験は、FMERが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2026-03-18T13:00:20Z) - Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training [33.61029387987583]
政策ミラー降下(PMD)は強化学習のための原則的枠組みを提供する
PMD-mean(英語版)と呼ばれる実用的アルゴリズムについて検討し、サンプリングポリシーの下での対数分割項と平均報酬とを近似する。
数学推論タスクの実験により, PMD-meanは安定性と時間効率を向上し, 優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T17:44:28Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning [6.836651088754774]
PolicyFlowは、CNFベースの強化学習アルゴリズムである。
表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。
PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
論文 参考訳(メタデータ) (2026-02-01T11:08:09Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。