論文の概要: Mutual Information Optimal Control of Discrete-Time Linear Systems
- arxiv url: http://arxiv.org/abs/2507.04712v1
- Date: Mon, 07 Jul 2025 07:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.307549
- Title: Mutual Information Optimal Control of Discrete-Time Linear Systems
- Title(参考訳): 離散時間線形システムの相互情報最適制御
- Authors: Shoju Enami, Kenji Kashima,
- Abstract要約: 離散時間線形システムに対する相互情報最適制御問題(MIOCP)を定式化する。
この問題は、最大エントロピー最適制御問題(MEOCP)の拡張と見なすことができる。
- 参考スコア(独自算出の注目度): 0.07366405857677226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we formulate a mutual information optimal control problem (MIOCP) for discrete-time linear systems. This problem can be regarded as an extension of a maximum entropy optimal control problem (MEOCP). Differently from the MEOCP where the prior is fixed to the uniform distribution, the MIOCP optimizes the policy and prior simultaneously. As analytical results, under the policy and prior classes consisting of Gaussian distributions, we derive the optimal policy and prior of the MIOCP with the prior and policy fixed, respectively. Using the results, we propose an alternating minimization algorithm for the MIOCP. Through numerical experiments, we discuss how our proposed algorithm works.
- Abstract(参考訳): 本稿では,離散時間線形システムに対する相互情報最適制御問題(MIOCP)を定式化する。
この問題は、最大エントロピー最適制御問題(MEOCP)の拡張と見なすことができる。
事前が均一分布に固定されたMEOCPとは異なり、MIOCPはポリシーと事前を同時に最適化する。
分析結果として、ガウス分布からなる政策と事前クラスの下で、それぞれ事前と政策を固定した MIOCP の最適政策と事前政策を導出する。
この結果を用いて, MIOCP の交互最小化アルゴリズムを提案する。
数値実験を通して,提案アルゴリズムの動作について考察する。
関連論文リスト
- Solving General-Utility Markov Decision Processes in the Single-Trial Regime with Online Planning [3.8779763612314633]
我々は, 単審制における無限水平割引型汎用マルコフ決定過程(GUMDP)の解法を最初に提案する。
本稿では,特にモンテカルロ木探索アルゴリズムを用いて,GUMDPを単一審理体制で解く方法を紹介する。
論文 参考訳(メタデータ) (2025-05-21T17:32:23Z) - Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Riemannian Proximal Policy Optimization [15.532281292327031]
我々は、マルコフ決定過程(MDP)問題を解決するために、収束が保証された一般近似最適化アルゴリズムを用いる。
MDP問題における政策モデルを定式化するために、不定混合モデル(GM)として定式化する。
論文 参考訳(メタデータ) (2020-05-19T03:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。