論文の概要: Compactly Restrictable Metric Policy Optimization Problems
- arxiv url: http://arxiv.org/abs/2207.05850v1
- Date: Tue, 12 Jul 2022 21:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 16:06:43.999638
- Title: Compactly Restrictable Metric Policy Optimization Problems
- Title(参考訳): コンパクトに制限可能な計量政策最適化問題
- Authors: Victor D. Dorobantu, Kamyar Azizzadenesheli, and Yisong Yue
- Abstract要約: 我々は,距離状態と行動空間を持つ決定論的マルコフ決定過程に対する政策最適化問題について検討する。
本研究の目的は,MPOPの有効性に関する理論的結果を確立することであり,実際に関連する連続制御システムを特徴づけることである。
- 参考スコア(独自算出の注目度): 34.3498583619248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy optimization problems for deterministic Markov decision
processes (MDPs) with metric state and action spaces, which we refer to as
Metric Policy Optimization Problems (MPOPs). Our goal is to establish
theoretical results on the well-posedness of MPOPs that can characterize
practically relevant continuous control systems. To do so, we define a special
class of MPOPs called Compactly Restrictable MPOPs (CR-MPOPs), which are
flexible enough to capture the complex behavior of robotic systems but specific
enough to admit solutions using dynamic programming methods such as value
iteration. We show how to arrive at CR-MPOPs using forward-invariance. We
further show that our theoretical results on CR-MPOPs can be used to
characterize feedback linearizable control affine systems.
- Abstract(参考訳): 本稿では,計量状態と行動空間を持つ決定論的マルコフ決定過程(MDPs)に対する政策最適化問題について検討し,これを計量政策最適化問題(MPOPs)と呼ぶ。
当社の目標は,実際に関連する連続制御システムを特徴付けるmpopsの適切性に関する理論的結果を確立することにある。
そこで我々は,ロボットシステムの複雑な動作を捉えられるほど柔軟であるが,価値反復のような動的プログラミング手法を用いた解を許容するのに十分な特異性を有する,コンパクトに制限可能なmpops (cr-mpops) と呼ばれるmpopsの特殊クラスを定義する。
前方不変性を用いてCR-MPOPに到達する方法を示す。
さらに、CR-MPOPの理論的結果は、フィードバック線形化制御アフィンシステムの特徴付けに利用できることを示す。
関連論文リスト
- Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文 参考訳(メタデータ) (2022-08-26T07:42:53Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。
本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。
本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T18:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。