論文の概要: Solving infinite-horizon POMDPs with memoryless stochastic policies in
state-action space
- arxiv url: http://arxiv.org/abs/2205.14098v1
- Date: Fri, 27 May 2022 16:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 15:18:35.609071
- Title: Solving infinite-horizon POMDPs with memoryless stochastic policies in
state-action space
- Title(参考訳): 状態-作用空間における無記憶確率政策による無限ホリゾンポムdpの解法
- Authors: Johannes M\"uller, Guido Mont\'ufar
- Abstract要約: 完全可観測マルコフ決定過程における逆最適化は、状態-作用周波数のポリトープ上の線形プログラムと等価である。
状態空間(ROSA)における逆最適化のアプローチを提案する。
ROSAは計算効率が良く,既存の手法よりも改善できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward optimization in fully observable Markov decision processes is
equivalent to a linear program over the polytope of state-action frequencies.
Taking a similar perspective in the case of partially observable Markov
decision processes with memoryless stochastic policies, the problem was
recently formulated as the optimization of a linear objective subject to
polynomial constraints. Based on this we present an approach for Reward
Optimization in State-Action space (ROSA). We test this approach experimentally
in maze navigation tasks. We find that ROSA is computationally efficient and
can yield stability improvements over other existing methods.
- Abstract(参考訳): 完全可観測マルコフ決定過程における逆最適化は、状態-作用周波数のポリトープ上の線形プログラムと等価である。
部分的に観測可能なマルコフ決定過程とメモリレス確率ポリシーの場合と同様の視点で、この問題は多項式制約を受ける線形対象の最適化として最近定式化された。
そこで我々は,状態空間(ROSA)におけるリワード最適化のアプローチを提案する。
この手法をmazeナビゲーションタスクで実験的にテストする。
ROSAは計算効率が良く,既存の手法に比べて安定性が向上していることがわかった。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Transition Constrained Bayesian Optimization via Markov Decision Processes [40.42634046766111]
この研究はマルコフ決定過程の枠組みを通じて古典的ベイズ最適化を拡張した。
我々は,地平線全体に向けて計画する政策を得るため,強化学習を用いて実用機能の抽出可能な線形化を反復的に解決する。
本稿では, 化学反応器最適化, 情報経路計画, 機械校正, その他の合成例の応用例を紹介する。
論文 参考訳(メタデータ) (2024-02-13T12:11:40Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - The Geometry of Memoryless Stochastic Policy Optimization in
Infinite-Horizon POMDPs [0.0]
我々は、無限水平部分観測可能な決定プロセスにおいて、最高のメモリレスポリシーを見つけるという問題を考察する。
本研究では, 減算された状態-作用周波数と予測累積報酬が政策の関数であり, その度合いは部分観測可能性の度合いによって決定されることを示す。
論文 参考訳(メタデータ) (2021-10-14T14:42:09Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。