論文の概要: GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies
- arxiv url: http://arxiv.org/abs/2603.14245v1
- Date: Sun, 15 Mar 2026 06:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.69686
- Title: GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies
- Title(参考訳): GoldenStart:Q-Guided pres and Entropy Control for Distilling Flow Policies
- Authors: He Zhang, Ying Sun, Hui Xiong,
- Abstract要約: フローマッチング政策は強化学習(RL)を大いに約束する
彼らの実践的応用は、しばしば禁止的な遅延推論と効果の低いオンライン探索によって妨げられる。
我々は,Q誘導前処理と明示的エントロピー制御を備えた政策蒸留法であるGoldenStart(GSFlow)を提案する。
統合されたフレームワークは、生成開始点を設計し、ポリシーエントロピーを明示的に制御することにより、効率的かつ探索的なポリシーを達成できることを実証する。
- 参考スコア(独自算出の注目度): 22.819853466384686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-matching policies hold great promise for reinforcement learning (RL) by capturing complex, multi-modal action distributions. However, their practical application is often hindered by prohibitive inference latency and ineffective online exploration. Although recent works have employed one-step distillation for fast inference, the structure of the initial noise distribution remains an overlooked factor that presents significant untapped potential. This overlooked factor, along with the challenge of controlling policy stochasticity, constitutes two critical areas for advancing distilled flow-matching policies. To overcome these limitations, we propose GoldenStart (GSFlow), a policy distillation method with Q-guided priors and explicit entropy control. Instead of initializing generation from uninformed noise, we introduce a Q-guided prior modeled by a conditional VAE. This state-conditioned prior repositions the starting points of the one-step generation process into high-Q regions, effectively providing a "golden start" that shortcuts the policy to promising actions. Furthermore, for effective online exploration, we enable our distilled actor to output a stochastic distribution instead of a deterministic point. This is governed by entropy regularization, allowing the policy to shift from pure exploitation to principled exploration. Our integrated framework demonstrates that by designing the generative startpoint and explicitly controlling policy entropy, it is possible to achieve efficient and exploratory policies, bridging the generative models and the practical actor-critic methods. We conduct extensive experiments on offline and online continuous control benchmarks, where our method significantly outperforms prior state-of-the-art approaches. Code will be available at https://github.com/ZhHe11/GSFlow-RL.
- Abstract(参考訳): フローマッチングポリシは、複雑なマルチモーダルなアクション分布をキャプチャすることで、強化学習(RL)を大いに約束する。
しかし、それらの実践的応用は、しばしば禁忌の推論遅延と非効果的なオンライン探索によって妨げられる。
近年の研究では、高速な推論のために一段階の蒸留法が採用されているが、初期ノイズ分布の構造は、大きな未発見ポテンシャルを示す見落としの要素として残されている。
この見過ごされた要因は、政策確率性を制御することの難しさと共に、蒸留フローマッチング政策を進めるための2つの重要な領域を構成している。
これらの制約を克服するために,Q誘導前処理と明示的エントロピー制御を備えた政策蒸留法であるGoldenStart(GSFlow)を提案する。
非インフォームドノイズから生成を初期化する代わりに、条件付きVAEによってモデル化されたQ誘導前処理を導入する。
この状態条件付き事前配置は、1段階生成プロセスの開始点を高Q領域に配置し、効果的に「ゴールドスタート」を提供し、将来的な行動にポリシーをショートカットする。
さらに, オンライン探索を効果的に行うため, 蒸留したアクターは, 決定論点ではなく確率分布を出力できる。
これはエントロピー規則化(entropy regularization)によって統治されており、政策は純粋な搾取から原則的な探検へと移行することができる。
統合された枠組みは, 生成開始点を設計し, 政策エントロピーを明示的に制御することにより, 効率的かつ探索的な政策を達成し, 生成モデルと実用的なアクタ批判的手法をブリッジできることを実証する。
我々は、オフラインおよびオンラインの継続的制御ベンチマークで広範な実験を行い、我々の手法は最先端のアプローチよりも大幅に優れています。
コードはhttps://github.com/ZhHe11/GSFlow-RLで入手できる。
関連論文リスト
- Reparameterization Flow Policy Optimization [35.59197802340267]
フローポリシーは、差別化可能なODE統合を通じてアクションを生成する。
RFOは、フロー生成プロセスとシステムダイナミクスを共同でバックプロパゲーションすることで、ポリシー勾配を計算する。
RFOは最先端のベースラインの報酬として約2ドルを達成している。
論文 参考訳(メタデータ) (2026-02-03T13:22:08Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Sampling from Energy-based Policies using Diffusion [18.135501150108894]
エネルギーベースのポリシーは、強化学習における複雑なマルチモーダルな振る舞いをモデル化するための柔軟なフレームワークを提供する。
既存の手法では、政策表現にガウスのような単純なパラメトリック分布を用いるのが一般的である。
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。