論文の概要: Well-Posed KL-Regularized Control via Wasserstein and Kalman-Wasserstein KL Divergences
- arxiv url: http://arxiv.org/abs/2602.02250v1
- Date: Mon, 02 Feb 2026 15:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.270456
- Title: Well-Posed KL-Regularized Control via Wasserstein and Kalman-Wasserstein KL Divergences
- Title(参考訳): WassersteinとKalman-WassersteinによるKL規則化制御
- Authors: Viktor Stein, Adwait Datar, Nihat Ay,
- Abstract要約: Kullback-Leibler divergence (KL) 正規化は強化学習において広く用いられているが、サポートミスマッチの下で無限となり、低雑音域で縮退する。
我々は、KLの動的定式化におけるフィッシャー・ラオ幾何を輸送的特異点に置き換えることで、(カルマン)-ワッサーシュタイン-KL類似体を導入する。
KL正規化最適制御におけるこれらの分散性の有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kullback-Leibler divergence (KL) regularization is widely used in reinforcement learning, but it becomes infinite under support mismatch and can degenerate in low-noise limits. Utilizing a unified information-geometric framework, we introduce (Kalman)-Wasserstein-based KL analogues by replacing the Fisher-Rao geometry in the dynamical formulation of the KL with transport-based geometries, and we derive closed-form values for common distribution families. These divergences remain finite under support mismatch and yield a geometric interpretation of regularization heuristics used in Kalman ensemble methods. We demonstrate the utility of these divergences in KL-regularized optimal control. In the fully tractable setting of linear time-invariant systems with Gaussian process noise, the classical KL reduces to a quadratic control penalty that becomes singular as process noise vanishes. Our variants remove this singularity, yielding well-posed problems. On a double integrator and a cart-pole example, the resulting controls outperform KL-based regularization.
- Abstract(参考訳): Kullback-Leibler divergence (KL) 正規化は強化学習において広く用いられているが、サポートミスマッチの下で無限となり、低雑音域で縮退する。
統一された情報幾何学的枠組みを用いて、KLの動的定式化においてフィッシャー・ラオ幾何学を置き換え、(カルマン)-ワッサーシュタイン-KL類似体を導入し、共通分布族に対する閉形式値を導出する。
これらの発散は、サポートミスマッチの下で有限のままであり、カルマンアンサンブル法で用いられる正規化ヒューリスティックスの幾何学的解釈をもたらす。
KL正規化最適制御におけるこれらの分散性の有用性を実証する。
ガウス過程ノイズを持つ線形時間不変系の完全トラクタブルな設定において、古典的なKLは、プロセスノイズが消えるにつれて特異となる二次制御ペナルティに還元される。
我々の変種はこの特異点を取り除き、よく仮定された問題をもたらす。
ダブルインテグレータとカートポールの例では、結果として得られるコントロールはKLベースの正規化よりも優れている。
関連論文リスト
- Tail-Sensitive KL and Rényi Convergence of Unadjusted Hamiltonian Monte Carlo via One-Shot Couplings [9.926709161663053]
We developed a framework for upgrade Wasserstein convergence guarantees for unadjusted HMC algorithm to guarantees in tail-sensitive KL and Rényi divergences。
結果は, 相対密度ミスマッチの定量的制御, 強い発散における離散化バイアスの役割を明らかにするとともに, 無調整サンプリングとメトロポリス調整マルコフ連鎖の温暖開始の両方に関係した保証を提供する。
論文 参考訳(メタデータ) (2026-01-13T22:39:23Z) - Unifying Entropy Regularization in Optimal Control: From and Back to Classical Objectives via Iterated Soft Policies and Path Integral Solutions [4.934817254755008]
本稿では,Kulback-Leibler正則化のレンズによる最適制御の定式化について統一的な視点で検討する。
我々は、政策と移行に対するKLの罰則を分離し、それらを独立重み付けする中心的な問題を提案する。
これらのソフト・ポリティクスの定式化は、元の SOC と RSOC の問題を大きくし、これは、正規化された解を反復して元の解を回収できることを意味する。
論文 参考訳(メタデータ) (2025-12-05T19:31:39Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Statistical and Geometrical properties of regularized Kernel Kullback-Leibler divergence [7.273481485032721]
Bach [2022] が導入したカーネル共分散作用素によるクルバック・リーブラ発散の統計的および幾何学的性質について検討する。
密度比を含む古典的なクルバック・リーブラー(KL)の発散とは異なり、KKLは再現可能なカーネルヒルベルト空間(RKHS)における共分散作用素(埋め込み)による確率分布を比較する。
この斬新な発散は、確率分布と最大平均誤差のようなカーネル埋め込みメトリクスの間の標準のクルバック・リーバーと平行だが異なる側面を共有する。
論文 参考訳(メタデータ) (2024-08-29T14:01:30Z) - Kullback-Leibler control for discrete-time nonlinear systems on
continuous spaces [0.24366811507669117]
Kullback-Leibler (KL) 制御は非線形最適制御問題の効率的な数値解法を可能にする。
再構成されたKL制御は、不合理な仮定を伴わずに、元のKL制御のような効率的な数値アルゴリズムを許容することを示す。
論文 参考訳(メタデータ) (2022-03-24T06:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。