論文の概要: Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces
- arxiv url: http://arxiv.org/abs/2106.04206v1
- Date: Tue, 8 Jun 2021 09:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:39:48.702658
- Title: Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces
- Title(参考訳): 連続空間における運動計画のためのリプシッツ帯域付きPMDPの効率的なサンプリング
- Authors: \"Omer \c{S}ahin Ta\c{s}, Felix Hauser, Martin Lauer
- Abstract要約: 不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 5.732271870257913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision making under uncertainty can be framed as a partially observable
Markov decision process (POMDP). Finding exact solutions of POMDPs is generally
computationally intractable, but the solution can be approximated by
sampling-based approaches. These sampling-based POMDP solvers rely on
multi-armed bandit (MAB) heuristics, which assume the outcomes of different
actions to be uncorrelated. In some applications, like motion planning in
continuous spaces, similar actions yield similar outcomes. In this paper, we
utilize variants of MAB heuristics that make Lipschitz continuity assumptions
on the outcomes of actions to improve the efficiency of sampling-based planning
approaches. We demonstrate the effectiveness of this approach in the context of
motion planning for automated driving.
- Abstract(参考訳): 不確実性の下での意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に計算的に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
これらのサンプリングベースのPOMDPソルバはマルチアーム・バンディット(MAB)ヒューリスティックスに依存しており、異なるアクションの結果は非相関であると仮定している。
連続空間における運動計画のような応用では、同様の作用が同様の結果をもたらす。
本稿では,行動の結果に対するリプシッツ連続性を仮定したmabヒューリスティックの変種を用いて,サンプリング型計画手法の効率を向上させる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を示す。
関連論文リスト
- Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Evaluating Guiding Spaces for Motion Planning [2.384084215091134]
我々は、同じ枠組みの下で、見かけ上の異なる多くの先行研究をカプセル化するエンフモーション計画誘導空間を定義する。
また,得られたバイアスサンプリングの品質に焦点をあてた案内計画を評価するための情報理論手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T21:17:51Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - On Solving a Stochastic Shortest-Path Markov Decision Process as
Probabilistic Inference [5.517104116168873]
本稿では,確率的推論として,SSP MDP(General Decision Shortest-Path Markov Process)を提案する。
我々は不確実性の下での計画のオンラインとオフラインの手法について議論する。
論文 参考訳(メタデータ) (2021-09-13T11:07:52Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。