論文の概要: Unifying Entropy Regularization in Optimal Control: From and Back to Classical Objectives via Iterated Soft Policies and Path Integral Solutions
- arxiv url: http://arxiv.org/abs/2512.06109v2
- Date: Tue, 09 Dec 2025 10:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:22.928855
- Title: Unifying Entropy Regularization in Optimal Control: From and Back to Classical Objectives via Iterated Soft Policies and Path Integral Solutions
- Title(参考訳): 最適制御におけるエントロピー正規化の統一:反復型ソフトポリシーと経路積分解による古典的対象への移動
- Authors: Ajinkya Bhole, Mohammad Mahmoudi Filabadi, Guillaume Crevecoeur, Tom Lefebvre,
- Abstract要約: 本稿では,Kulback-Leibler正則化のレンズによる最適制御の定式化について統一的な視点で検討する。
我々は、政策と移行に対するKLの罰則を分離し、それらを独立重み付けする中心的な問題を提案する。
これらのソフト・ポリティクスの定式化は、元の SOC と RSOC の問題を大きくし、これは、正規化された解を反復して元の解を回収できることを意味する。
- 参考スコア(独自算出の注目度): 4.934817254755008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops a unified perspective on several stochastic optimal control formulations through the lens of Kullback-Leibler regularization. We propose a central problem that separates the KL penalties on policies and transitions, assigning them independent weights, thereby generalizing the standard trajectory-level KL-regularization commonly used in probabilistic and KL-regularized control. This generalized formulation acts as a generative structure allowing to recover various control problems. These include the classical Stochastic Optimal Control (SOC), Risk-Sensitive Optimal Control (RSOC), and their policy-based KL-regularized counterparts. The latter we refer to as soft-policy SOC and RSOC, facilitating alternative problems with tractable solutions. Beyond serving as regularized variants, we show that these soft-policy formulations majorize the original SOC and RSOC problem. This means that the regularized solution can be iterated to retrieve the original solution. Furthermore, we identify a structurally synchronized case of the risk-seeking soft-policy RSOC formulation, wherein the policy and transition KL-regularization weights coincide. Remarkably, this specific setting gives rise to several powerful properties such as a linear Bellman equation, path integral solution, and, compositionality, thereby extending these computationally favourable properties to a broad class of control problems.
- Abstract(参考訳): 本稿では,Kulback-Leibler正則化のレンズを通して,いくつかの確率的最適制御の定式化を統一的に検討する。
そこで我々は,KL法を政策と遷移のペナルティを分離し,それらを独立重み付けし,確率的およびKL規則化制御によく用いられる標準軌跡レベルのKL規則化を一般化する中心的問題を提案する。
この一般化された定式化は、様々な制御問題を回復するための生成構造として機能する。
古典的確率的最適制御(SOC)、リスク感応的最適制御(RSOC)、政策に基づくKL正規化制御(KL-regularized Control)などがある。
後者はSoft-policy SOC と RSOC と呼ばれ、トラクタブルソリューションの代替問題を容易にする。
正規化された変種として機能する以外に、これらのソフトポリケートな定式化が元の SOC および RSOC 問題を大まかにすることを示す。
これは、正規化された解は元の解を取得するために反復することができることを意味する。
さらに,リスク・サーキング・ソフト・ポリチィRSOCの定式化において,ポリシと遷移KL-規則化重みが一致する構造的同期ケースを同定した。
注目すべきことに、この特定の設定は、線形ベルマン方程式、経路積分解、および構成性のようないくつかの強力な性質をもたらし、それによってこれらの計算上好ましい性質を幅広い制御問題に拡張する。
関連論文リスト
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Steering Large Agent Populations using Mean-Field Schrodinger Bridges with Gaussian Mixture Models [13.03355083378673]
Mean-Field Schrodinger Bridge (MFSB) 問題は、最小の作業制御ポリシーを見つけることを目的とした最適化問題である。
マルチエージェント制御の文脈において、目的は同一の相互作用する協調エージェントの群の構成を制御することである。
論文 参考訳(メタデータ) (2025-03-31T04:01:04Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。