論文の概要: The Geometry of Memoryless Stochastic Policy Optimization in
Infinite-Horizon POMDPs
- arxiv url: http://arxiv.org/abs/2110.07409v2
- Date: Fri, 15 Oct 2021 13:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 10:52:11.521127
- Title: The Geometry of Memoryless Stochastic Policy Optimization in
Infinite-Horizon POMDPs
- Title(参考訳): Infinite-Horizon POMDPにおけるメモリレス確率最適化の幾何学
- Authors: Johannes M\"uller, Guido Mont\'ufar
- Abstract要約: 我々は、無限水平部分観測可能な決定プロセスにおいて、最高のメモリレスポリシーを見つけるという問題を考察する。
本研究では, 減算された状態-作用周波数と予測累積報酬が政策の関数であり, その度合いは部分観測可能性の度合いによって決定されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of finding the best memoryless stochastic policy for
an infinite-horizon partially observable Markov decision process (POMDP) with
finite state and action spaces with respect to either the discounted or mean
reward criterion. We show that the (discounted) state-action frequencies and
the expected cumulative reward are rational functions of the policy, whereby
the degree is determined by the degree of partial observability. We then
describe the optimization problem as a linear optimization problem in the space
of feasible state-action frequencies subject to polynomial constraints that we
characterize explicitly. This allows us to address the combinatorial and
geometric complexity of the optimization problem using recent tools from
polynomial optimization. In particular, we demonstrate how the partial
observability constraints can lead to multiple smooth and non-smooth local
optimizers and we estimate the number of critical points.
- Abstract(参考訳): 有限状態および作用空間を有する無限水平部分観測可能マルコフ決定過程(POMDP)に対して、割引条件または平均報酬基準のいずれかに関して、最適なメモリレス確率的ポリシーを求めることを考える。
評価された状態-作用周波数と予測累積報酬は政策の有理関数であり、その度合いは部分観測可能性の度合いによって決定されることを示す。
次に, 多項式制約を受ける状態動作周波数空間における線形最適化問題として, 明示的に特徴付ける最適化問題を記述した。
これにより、多項式最適化の最近のツールを用いて、最適化問題の組合せ的および幾何学的複雑さに対処することができる。
特に、部分可観測性制約が複数の滑らかでスムースでない局所最適化にどのようにつながるかを実証し、臨界点の数を推定する。
関連論文リスト
- Structured Regularization for Constrained Optimization on the SPD Manifold [1.1126342180866644]
対称ゲージ関数に基づく構造化正規化器のクラスを導入し、より高速な非制約手法でSPD多様体上の制約付き最適化を解けるようにする。
構造正規化器は望ましい構造(特に凸性や凸の差)を保存または誘導するために選択できることを示す。
論文 参考訳(メタデータ) (2024-10-12T22:11:22Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Optimizing Chance-Constrained Submodular Problems with Variable
Uncertainties [12.095075636344536]
本稿では,制約付き多種多様な問題を捕捉する,確率制約付き部分モジュラー最適化問題について検討する。
所与の最適解に対する定数近似比という,高品質な解を得ることのできるグリーディアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-23T04:48:49Z) - Multistage Stochastic Optimization via Kernels [3.7565501074323224]
我々は,多段階最適化問題に対する非パラメトリック,データ駆動,トラクタブルアプローチを開発した。
本稿では,提案手法が最適に近い平均性能で決定ルールを生成することを示す。
論文 参考訳(メタデータ) (2023-03-11T23:19:32Z) - Solving infinite-horizon POMDPs with memoryless stochastic policies in
state-action space [0.0]
完全可観測マルコフ決定過程における逆最適化は、状態-作用周波数のポリトープ上の線形プログラムと等価である。
状態空間(ROSA)における逆最適化のアプローチを提案する。
ROSAは計算効率が良く,既存の手法よりも改善できることがわかった。
論文 参考訳(メタデータ) (2022-05-27T16:56:59Z) - Non-Convex Optimization with Certificates and Fast Rates Through Kernel
Sums of Squares [68.8204255655161]
非最適化近似問題を考える。
本稿では,最優先計算を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-11T09:37:04Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Sparse Signal Reconstruction for Nonlinear Models via Piecewise Rational
Optimization [27.080837460030583]
劣化した信号を非線形歪みと限られたサンプリングレートで再構成する手法を提案する。
本手法は,不正確な適合項と罰則として定式化する。
シミュレーションの利点の観点から,この問題の活用方法を示す。
論文 参考訳(メタデータ) (2020-10-29T09:05:19Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。