Fugu-MT 論文翻訳(概要): A general Markov decision process formalism for action-state entropy-regularized reward maximization

論文の概要: A general Markov decision process formalism for action-state entropy-regularized reward maximization

arxiv url: http://arxiv.org/abs/2302.01098v1
Date: Thu, 2 Feb 2023 13:40:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-03 13:54:07.642378
Title: A general Markov decision process formalism for action-state entropy-regularized reward maximization
Title（参考訳）: 行動状態エントロピー正規化報酬最大化のための一般的なマルコフ決定過程形式
Authors: Dmytro Grytskyy, Jorge Ram\'irez-Ruiz, Rub\'en Moreno-Bote
Abstract要約: これまでの研究は、さまざまな形態の行動、状態、行動状態のエントロピー正規化、純粋な探査、宇宙占領に対処してきた。これらの問題は正規化、一般化、学習に極めて関係している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous work has separately addressed different forms of action, state and action-state entropy regularization, pure exploration and space occupation. These problems have become extremely relevant for regularization, generalization, speeding up learning and providing robust solutions at unprecedented levels. However, solutions of those problems are hectic, ranging from convex and non-convex optimization, and unconstrained optimization to constrained optimization. Here we provide a general dual function formalism that transforms the constrained optimization problem into an unconstrained convex one for any mixture of action and state entropies. The cases with pure action entropy and pure state entropy are understood as limits of the mixture.
Abstract（参考訳）: 以前の研究では、異なる形態のアクション、状態と状態のエントロピーの規則化、純粋な探索、空間の占有について別々に取り組んだ。これらの問題は、正規化、一般化、学習のスピードアップ、前例のないレベルで堅牢なソリューションの提供に非常に関係している。しかし、これらの問題の解は、凸最適化や非凸最適化、制約のない最適化から制約付き最適化まで多岐にわたる。ここでは、任意の作用と状態エントロピーの混合に対して、制約付き最適化問題を非制約凸に変換する一般双対関数形式を提供する。純粋な作用エントロピーと純粋な状態エントロピーのケースは、混合物の極限として理解される。

関連論文リスト

Symplectic Optimization on Gaussian States [0.0]
ボソニックな基底状態問題を解決するためのシンプレクティック最適化フレームワークを提案する。このフレームワークは、弱い非四面体相互作用の大規模近似処理の基礎を提供する。
論文参考訳（メタデータ） (2026-01-28T18:31:50Z)
Non-convex entropic mean-field optimization via Best Response flow [0.0]
固定基準測度に関して、相対エントロピー(KL)によって正規化される空間確率測度における非函数の最小化の問題について議論する。非函数から正規化子を選択する方法を示すので、Best Response は$L1$Wasserstein 距離の縮約となる。
論文参考訳（メタデータ） (2025-05-28T18:22:08Z)
Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文参考訳（メタデータ） (2024-02-16T16:35:18Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文参考訳（メタデータ） (2022-10-04T04:43:58Z)
Algorithm for Constrained Markov Decision Process with Linear Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文参考訳（メタデータ） (2022-06-03T16:26:38Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization [7.483040617090451]
本研究では,ソフトマックスパラメータ化の下で,エントロピー規則化制約付きマルコフ決定過程(CMDP)について検討する。我々の理論的解析は、ラグランジアン双対函数は滑らかであり、ラグランジアン双対性ギャップは原始性ギャップと制約違反に分解できることを示している。
論文参考訳（メタデータ） (2021-10-17T21:26:40Z)
Transient growth of accelerated first-order methods for strongly convex optimization problems [1.6114012813668934]
本稿では,高速化第一次最適化アルゴリズムの過渡挙動について検討する。二次最適化問題に対しては、線形系理論のツールを用いて、非正規ダイナミクスの存在から過渡的成長が生じることを示す。強凸滑らかな最適化問題に対して, 積分二次制約の理論を応用し, ネステロフ加速法の過渡応答の大きさの上限を定式化する。
論文参考訳（メタデータ） (2021-03-14T20:01:14Z)
Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文参考訳（メタデータ） (2021-02-22T19:47:26Z)
Modeling Linear Inequality Constraints in Quadratic Binary Optimization for Variational Quantum Eigensolver [0.0]
本稿では, 変分量子固有解法における配向型変分形式の利用について紹介する。通常、いくつかの最適化問題に現れる4つの制約がモデル化されている。提案手法の主な利点は、変分形式のパラメータの数が一定であることである。
論文参考訳（メタデータ） (2020-07-26T23:36:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。