論文の概要: Robust Finite-State Controllers for Uncertain POMDPs
- arxiv url: http://arxiv.org/abs/2009.11459v2
- Date: Thu, 4 Mar 2021 21:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:39:16.410623
- Title: Robust Finite-State Controllers for Uncertain POMDPs
- Title(参考訳): 不確定な pomdp に対するロバスト有限状態制御器
- Authors: Murat Cubuktepe, Nils Jansen, Sebastian Junges, Ahmadreza Marandi,
Marnix Suilen, Ufuk Topcu
- Abstract要約: 不確実部分可観測決定過程 (uPOMDPs) により、標準POMDPの確率的遷移観測関数は不確実集合に属する。
UPOMDPの有限メモリポリシを計算するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 25.377873201375515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertain partially observable Markov decision processes (uPOMDPs) allow the
probabilistic transition and observation functions of standard POMDPs to belong
to a so-called uncertainty set. Such uncertainty, referred to as epistemic
uncertainty, captures uncountable sets of probability distributions caused by,
for instance, a lack of data available. We develop an algorithm to compute
finite-memory policies for uPOMDPs that robustly satisfy specifications against
any admissible distribution. In general, computing such policies is
theoretically and practically intractable. We provide an efficient solution to
this problem in four steps. (1) We state the underlying problem as a nonconvex
optimization problem with infinitely many constraints. (2) A dedicated
dualization scheme yields a dual problem that is still nonconvex but has
finitely many constraints. (3) We linearize this dual problem and (4) solve the
resulting finite linear program to obtain locally optimal solutions to the
original problem. The resulting problem formulation is exponentially smaller
than those resulting from existing methods. We demonstrate the applicability of
our algorithm using large instances of an aircraft collision-avoidance scenario
and a novel spacecraft motion planning case study.
- Abstract(参考訳): 観測不能なマルコフ決定過程 (uPOMDPs) により、標準ポドフの確率的遷移と観測関数はいわゆる不確実性集合に属する。
このような不確実性は、疫学的な不確実性と呼ばれ、例えばデータ不足によって生じる確率分布の無数の集合をキャプチャする。
我々は,任意の許容分布に対する仕様を確実に満たす uPOMDP の有限メモリポリシを計算するアルゴリズムを開発した。
一般に、そのような政策の計算は理論上、実用上は難解である。
この問題に対する効率的な解決策を4ステップで提供します。
1) 基礎となる問題を無限に多くの制約のある非凸最適化問題とする。
2) 専用双対化スキームは、まだ凸ではないが有限個の制約を持つ双対問題をもたらす。
3) この双対問題を線形化し, (4) 結果として得られる有限線形プログラムを解き, 原問題に対する局所最適解を得る。
その結果生じる問題定式化は、既存の方法による問題よりも指数関数的に小さい。
航空機衝突回避シナリオの大規模事例と,新しい宇宙機モーションプランニングケーススタディを用いて,本アルゴリズムの適用性を示す。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Uncertainty relation and the constrained quadratic programming [3.397254718930225]
分散和の厳密な状態独立な下界は、最適化理論における非線形制約を伴う二次計画問題として特徴づけられる。
本稿では、これらの2次プログラミングインスタンスを解くのに適した数値アルゴリズムを提案し、その効率と精度を強調した。
論文 参考訳(メタデータ) (2024-04-29T13:11:20Z) - Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。
我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Distributionally Robust Optimization with Markovian Data [8.126833795693699]
本研究では,不確実な問題パラメータの確率分布が不明なプログラムについて検討する。
本稿では,問題の目的関数と最適解を推定するために,データ駆動型分布法を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:59:02Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - The limits of min-max optimization algorithms: convergence to spurious
non-critical sets [82.74514886461257]
min-max最適化アルゴリズムは周期サイクルや同様の現象が存在するため、はるかに大きな問題に遭遇する。
問題のどの点も引き付けないアルゴリズムが存在することを示す。
ほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほぼほとんどである。
論文 参考訳(メタデータ) (2020-06-16T10:49:27Z) - Consistent Second-Order Conic Integer Programming for Learning Bayesian
Networks [2.7473982588529653]
連続観測データからBNのスパースDAG構造を学習する問題について検討する。
この数学的プログラムの最適解は、ある条件下では望ましい統計的性質を持つことが知られている。
ほぼ最適解を得るために, 分岐・結合プロセスの終了に向け, 早期停止条件を提案する。
論文 参考訳(メタデータ) (2020-05-29T00:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。