論文の概要: On Policy Stochasticity in Mutual Information Optimal Control of Linear Systems
- arxiv url: http://arxiv.org/abs/2507.21543v1
- Date: Tue, 29 Jul 2025 07:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.84919
- Title: On Policy Stochasticity in Mutual Information Optimal Control of Linear Systems
- Title(参考訳): 線形システムの相互情報最適制御における政策確率性について
- Authors: Shoju Enami, Kenji Kashima,
- Abstract要約: 本研究では, 温度パラメータと政策の最大最適度との関係について検討した。
最大エントロピー最適制御とは異なり、この関係は相互情報制御において未探索のままである。
政策が決定論的になる温度パラメータのそれぞれの条件を導出する。
- 参考スコア(独自算出の注目度): 0.07366405857677226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, mutual information optimal control has been proposed as an extension of maximum entropy optimal control. Both approaches introduce regularization terms to render the policy stochastic, and it is important to theoretically clarify the relationship between the temperature parameter (i.e., the coefficient of the regularization term) and the stochasticity of the policy. Unlike in maximum entropy optimal control, this relationship remains unexplored in mutual information optimal control. In this paper, we investigate this relationship for a mutual information optimal control problem (MIOCP) of discrete-time linear systems. After extending the result of a previous study of the MIOCP, we establish the existence of an optimal policy of the MIOCP, and then derive the respective conditions on the temperature parameter under which the optimal policy becomes stochastic and deterministic. Furthermore, we also derive the respective conditions on the temperature parameter under which the policy obtained by an alternating optimization algorithm becomes stochastic and deterministic. The validity of the theoretical results is demonstrated through numerical experiments.
- Abstract(参考訳): 近年,最大エントロピー最適制御の拡張として相互情報最適制御が提案されている。
どちらの手法も政策確率性を示す正規化項を導入し、温度パラメータ(すなわち正規化項の係数)と政策確率性との関係を理論的に解明することが重要である。
最大エントロピー最適制御とは異なり、この関係は相互情報最適制御において探索されていない。
本稿では、離散時間線形システムの相互情報最適制御問題(MIOCP)に対するこの関係について検討する。
MIOCPの以前の研究結果を拡張した上で、最適政策の存在を確立し、最適政策が確率的かつ決定論的となる温度パラメータのそれぞれの条件を導出する。
さらに、交互最適化アルゴリズムによって得られるポリシーが確率的かつ決定的になる温度パラメータについて、それぞれの条件を導出する。
理論的結果の妥当性は数値実験によって示される。
関連論文リスト
- Mutual Information Optimal Control of Discrete-Time Linear Systems [0.07366405857677226]
離散時間線形システムに対する相互情報最適制御問題(MIOCP)を定式化する。
この問題は、最大エントロピー最適制御問題(MEOCP)の拡張と見なすことができる。
論文 参考訳(メタデータ) (2025-07-07T07:04:27Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。
我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文 参考訳(メタデータ) (2023-03-08T07:42:47Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Convergence of Finite Memory Q-Learning for POMDPs and Near Optimality
of Learned Policies under Filter Stability [0.0]
POMDPに対して、過去の観測と制御行動の有限履歴を用いて、制御ポリシーに対するQ学習アルゴリズムの収束を提供する。
有限履歴ウィンドウの長さに対する近似誤差に関する明示的な誤差境界を示す。
我々は、極限不動点方程式が近似的信念-MDPの最適解を与えることを示す。
論文 参考訳(メタデータ) (2021-03-22T20:14:26Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。