論文の概要: Tsallis Entropy Regularization for Linearly Solvable MDP and Linear
Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2403.01805v1
- Date: Mon, 4 Mar 2024 07:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:35:23.769949
- Title: Tsallis Entropy Regularization for Linearly Solvable MDP and Linear
Quadratic Regulator
- Title(参考訳): 線形可解mdpと線形二次レギュレータに対するtsallisエントロピー正則化
- Authors: Yota Hashizume, Koshi Oishi, Kenji Kashima
- Abstract要約: 本稿では, Tsallis entropy を用いて線形可解 MDP と線形二次レギュレータの正則化を行う。
これらの問題の解法を導出し、得られた制御則の探索とスパーシリティのバランスをとる上での有用性を実証する。
- 参考スコア(独自算出の注目度): 1.4548651568912525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shannon entropy regularization is widely adopted in optimal control due to
its ability to promote exploration and enhance robustness, e.g., maximum
entropy reinforcement learning known as Soft Actor-Critic. In this paper,
Tsallis entropy, which is a one-parameter extension of Shannon entropy, is used
for the regularization of linearly solvable MDP and linear quadratic
regulators. We derive the solution for these problems and demonstrate its
usefulness in balancing between exploration and sparsity of the obtained
control law.
- Abstract(参考訳): シャノンエントロピー正則化は、ソフト・アクタ-クリティックとして知られる最大エントロピー強化学習のようなロバスト性を促進する能力があるため、最適制御において広く採用されている。
本稿では,Shannon Entropyの1パラメータ拡張であるTsallis entropyを用いて,線形可溶性MDPと線形二次レギュレータの正則化を行う。
我々は,これらの問題の解法を導出し,得られた制御法の探索とスパーシティのバランスにおける有用性を示す。
関連論文リスト
- Diagonalization without Diagonalization: A Direct Optimization Approach for Solid-State Density Functional Theory [8.922374095111797]
本稿では,密度汎関数論の直接最適化における変数占有数の問題に対処する新しい手法を提案する。
本手法は固有関数と職業の両方の物理的制約をパラメータ化に組み込む。
これは、占有数の正しいフェルミ・ディラック分布を生成し、量子エスプレッソのSCF法で得られたバンド構造と一致する。
論文 参考訳(メタデータ) (2024-11-06T11:03:40Z) - Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Randomized Physics-Informed Machine Learning for Uncertainty
Quantification in High-Dimensional Inverse Problems [49.1574468325115]
本研究では,高次元逆問題における不確実性定量化のための物理インフォームド機械学習手法を提案する。
我々は解析的に、そして、ハミルトン・モンテカルロとの比較を通して、rPICKLE はベイズ則によって与えられる真の後続に収束することを示す。
論文 参考訳(メタデータ) (2023-12-11T07:33:16Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Nearly Tight Convergence Bounds for Semi-discrete Entropic Optimal
Transport [0.483420384410068]
エントロピー半離散的最適輸送の解に対して、ほぼ厳密で非漸近収束境界を導出する。
また, エントロピーと非正規化コストの差を非漸近的かつ厳密に拡大させることも検討した。
論文 参考訳(メタデータ) (2021-10-25T06:52:45Z) - A Dual Approach to Constrained Markov Decision Processes with Entropy
Regularization [7.483040617090451]
本研究では,ソフトマックスパラメータ化の下で,エントロピー規則化制約付きマルコフ決定過程(CMDP)について検討する。
我々の理論的解析は、ラグランジアン双対函数は滑らかであり、ラグランジアン双対性ギャップは原始性ギャップと制約違反に分解できることを示している。
論文 参考訳(メタデータ) (2021-10-17T21:26:40Z) - Fast Policy Extragradient Methods for Competitive Games with Entropy
Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。
エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文 参考訳(メタデータ) (2021-05-31T17:51:15Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。