論文の概要: FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching
- arxiv url: http://arxiv.org/abs/2602.12829v1
- Date: Fri, 13 Feb 2026 11:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.933105
- Title: FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching
- Title(参考訳): FLAC: 運動エネルギー正規化ブリッジマッチングによる最大エントロピーRL
- Authors: Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma,
- Abstract要約: 本研究では,速度場の運動エネルギーをペナル化することにより,政策性を制御する枠組みを提案する。
我々は、エネルギー規則化された政策スキームと、運動エネルギーを自動調整する実用的な非政治アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 28.98935867615678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.
- Abstract(参考訳): 拡散モデルやフローマッチングのような反復的生成ポリシーは、連続的な制御に優れた表現性を提供するが、その作用対数密度が直接アクセスできないため、最大エントロピー強化学習を複雑にする。
これを解決するために、速度場の運動エネルギーをペナルティ化することにより政策確率性を制御する可能性のないフレームワークFLAC(Field Least-Energy Actor-Critic)を提案する。
我々の重要な洞察は、高エントロピー参照プロセス(例えば、均一)に対する一般シュレーディンガーブリッジ(GSB)問題としてポリシー最適化を定式化することである。
この観点では、最大エントロピー原理は、明示的な作用密度を必要とせず、戻りを最適化しながら高エントロピー参照に近づいたまま自然に現れる。
この枠組みでは、運動エネルギーは、基準から発散するための物理的に基底化されたプロキシとして機能する: 経路空間エネルギーを最小化することは、誘導された終端作用分布の偏差を束縛する。
この観点から、エネルギー規則化された政策反復スキームと、ラグランジアン双対機構を介して運動エネルギーを自動調整する実用的なオフポリシーアルゴリズムを導出する。
FLACは、強いベースラインに対する高次元ベンチマークにおいて、明示的な密度推定を回避しながら、優れた、あるいは同等のパフォーマンスを達成する。
関連論文リスト
- Boosting Maximum Entropy Reinforcement Learning via One-Step Flow Matching [8.665369041430969]
Flow Matching(FM)はワンステップ生成を可能にするが、Entropy Reinforcement Learning(MaxEnt RL)に統合することは難しい。
我々はこれらの課題に対処する原則的フレームワークである textbfFlow ベースの textbfLog-likelihood-textbfAware textbfMaximum textbfEntropy RL (textbfFLAME) を提案する。
論文 参考訳(メタデータ) (2026-02-02T03:54:11Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [38.17326719163195]
拡散に基づく最大エントロピーRL(DIME)
emphDIMEは拡散モデルによる近似推論の最近の進歩を活用し、最大エントロピー目標の下位境界を導出する。
提案手法は,MaxEnt-RLの原理的探索利益を維持しつつ,表現的拡散に基づくポリシの利用を可能にする。
論文 参考訳(メタデータ) (2025-02-04T13:37:14Z) - Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Sampling with Mollified Interaction Energy Descent [57.00583139477843]
モーフィファイド相互作用エネルギー降下(MIED)と呼ばれる新しい最適化に基づくサンプリング手法を提案する。
MIEDは、モル化相互作用エネルギー(MIE)と呼ばれる確率測度に関する新しいクラスのエネルギーを最小化する
我々は,制約のないサンプリング問題に対して,我々のアルゴリズムがSVGDのような既存の粒子ベースアルゴリズムと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-10-24T16:54:18Z) - Manipulating the Dynamics of a Fermi Resonance with Light. A Direct
Optimal Control Theory Approach [0.0]
量子力学問題に対する直接最適制御理論は、それ自体が従来の間接最適制御の代替として興味深いものであることを示している。
本稿では,一般的なフェルミ共振モデルの例を用いて,この手法の適用範囲を,正確なウェーブパケット伝搬の場合にまで拡張する。
論文 参考訳(メタデータ) (2021-08-27T14:30:03Z) - Targeted free energy estimation via learned mappings [66.20146549150475]
自由エネルギー摂動 (FEP) は60年以上前にズワンツィヒによって自由エネルギー差を推定する方法として提案された。
FEPは、分布間の十分な重複の必要性という厳しい制限に悩まされている。
目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、オーバーラップを増やすために構成空間の高次元マッピングを使用する。
論文 参考訳(メタデータ) (2020-02-12T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。