論文の概要: A general Markov decision process formalism for action-state
entropy-regularized reward maximization
- arxiv url: http://arxiv.org/abs/2302.01098v1
- Date: Thu, 2 Feb 2023 13:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:54:07.642378
- Title: A general Markov decision process formalism for action-state
entropy-regularized reward maximization
- Title(参考訳): 行動状態エントロピー正規化報酬最大化のための一般的なマルコフ決定過程形式
- Authors: Dmytro Grytskyy, Jorge Ram\'irez-Ruiz, Rub\'en Moreno-Bote
- Abstract要約: これまでの研究は、さまざまな形態の行動、状態、行動状態のエントロピー正規化、純粋な探査、宇宙占領に対処してきた。
これらの問題は正規化、一般化、学習に極めて関係している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has separately addressed different forms of action, state and
action-state entropy regularization, pure exploration and space occupation.
These problems have become extremely relevant for regularization,
generalization, speeding up learning and providing robust solutions at
unprecedented levels. However, solutions of those problems are hectic, ranging
from convex and non-convex optimization, and unconstrained optimization to
constrained optimization. Here we provide a general dual function formalism
that transforms the constrained optimization problem into an unconstrained
convex one for any mixture of action and state entropies. The cases with pure
action entropy and pure state entropy are understood as limits of the mixture.
- Abstract(参考訳): 以前の研究では、異なる形態のアクション、状態と状態のエントロピーの規則化、純粋な探索、空間の占有について別々に取り組んだ。
これらの問題は、正規化、一般化、学習のスピードアップ、前例のないレベルで堅牢なソリューションの提供に非常に関係している。
しかし、これらの問題の解は、凸最適化や非凸最適化、制約のない最適化から制約付き最適化まで多岐にわたる。
ここでは、任意の作用と状態エントロピーの混合に対して、制約付き最適化問題を非制約凸に変換する一般双対関数形式を提供する。
純粋な作用エントロピーと純粋な状態エントロピーのケースは、混合物の極限として理解される。
関連論文リスト
- Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - A Dual Approach to Constrained Markov Decision Processes with Entropy
Regularization [7.483040617090451]
本研究では,ソフトマックスパラメータ化の下で,エントロピー規則化制約付きマルコフ決定過程(CMDP)について検討する。
我々の理論的解析は、ラグランジアン双対函数は滑らかであり、ラグランジアン双対性ギャップは原始性ギャップと制約違反に分解できることを示している。
論文 参考訳(メタデータ) (2021-10-17T21:26:40Z) - Transient growth of accelerated first-order methods for strongly convex
optimization problems [1.6114012813668934]
本稿では,高速化第一次最適化アルゴリズムの過渡挙動について検討する。
二次最適化問題に対しては、線形系理論のツールを用いて、非正規ダイナミクスの存在から過渡的成長が生じることを示す。
強凸滑らかな最適化問題に対して, 積分二次制約の理論を応用し, ネステロフ加速法の過渡応答の大きさの上限を定式化する。
論文 参考訳(メタデータ) (2021-03-14T20:01:14Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Modeling Linear Inequality Constraints in Quadratic Binary Optimization
for Variational Quantum Eigensolver [0.0]
本稿では, 変分量子固有解法における配向型変分形式の利用について紹介する。
通常、いくつかの最適化問題に現れる4つの制約がモデル化されている。
提案手法の主な利点は、変分形式のパラメータの数が一定であることである。
論文 参考訳(メタデータ) (2020-07-26T23:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。