論文の概要: Simplifying Complex Observation Models in Continuous POMDP Planning with
Probabilistic Guarantees and Practice
- arxiv url: http://arxiv.org/abs/2311.07745v4
- Date: Sat, 27 Jan 2024 12:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:24:11.995429
- Title: Simplifying Complex Observation Models in Continuous POMDP Planning with
Probabilistic Guarantees and Practice
- Title(参考訳): 確率的保証と実践による連続pomdp計画における複雑観測モデルの簡略化
- Authors: Idan Lev-Yehudi, Moran Barenboim, Vadim Indelman
- Abstract要約: 我々は,簡易観測モデルを計画に用いた場合,どのような意味があるのかという問題に対処する。
我々の主な貢献は、単純化されたモデルの統計的全変動距離に基づく新しい確率的境界である。
計算はオフラインとオンラインに分かれることが可能で、計画中にコストのかかるモデルにアクセスすることなく、正式な保証に到達します。
- 参考スコア(独自算出の注目度): 9.444784653236157
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Solving partially observable Markov decision processes (POMDPs) with high
dimensional and continuous observations, such as camera images, is required for
many real life robotics and planning problems. Recent researches suggested
machine learned probabilistic models as observation models, but their use is
currently too computationally expensive for online deployment. We deal with the
question of what would be the implication of using simplified observation
models for planning, while retaining formal guarantees on the quality of the
solution. Our main contribution is a novel probabilistic bound based on a
statistical total variation distance of the simplified model. We show that it
bounds the theoretical POMDP value w.r.t. original model, from the empirical
planned value with the simplified model, by generalizing recent results of
particle-belief MDP concentration bounds. Our calculations can be separated
into offline and online parts, and we arrive at formal guarantees without
having to access the costly model at all during planning, which is also a novel
result. Finally, we demonstrate in simulation how to integrate the bound into
the routine of an existing continuous online POMDP solver.
- Abstract(参考訳): カメラ画像のような高次元かつ連続的な観察で部分的に観測可能なマルコフ決定プロセス(POMDP)を解くことは、多くの実生活ロボットや計画問題に必要である。
近年の研究では、観測モデルとして機械学習確率モデルが提案されているが、オンライン展開には計算コストが大きすぎる。
我々は,ソリューションの品質に関する正式な保証を維持しつつ,簡易な観測モデルを計画に使用することがどのような意味を持つのかという問題に対処する。
我々の主な貢献は、単純化モデルの統計総変動距離に基づく新しい確率的境界である。
提案手法は,PMDP値w.r.t.オリジナルモデルと経験的計画値と簡易モデルとのバウンドを示し,近年の粒子信頼性MDP濃度バウンドの結果を一般化した。
私たちの計算はオフラインとオンラインの2つに分けることができ、計画中にコストのかかるモデルに全くアクセスすることなく正式な保証を得ることができます。
最後に,既存の連続オンラインpomdpソルバのルーチンにバウンドをどのように統合するかをシミュレーションで示す。
関連論文リスト
- On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Exact and general decoupled solutions of the LMC Multitask Gaussian Process model [28.32223907511862]
コリージョン化線形モデル(英: Linear Model of Co- Regionalization、LMC)は、回帰や分類のためのマルチタスクガウス過程の非常に一般的なモデルである。
最近の研究によると、ある条件下では、モデルの潜在過程は切り離され、そのプロセスの数でのみ線形となる複雑さが生じる。
ここでは、これらの結果を拡張し、LCCの効率的な正確な計算に必要な条件はノイズモデルに関する軽度の仮説である、という最も一般的な仮定から示している。
論文 参考訳(メタデータ) (2023-10-18T15:16:24Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Continuous Mixtures of Tractable Probabilistic Models [10.667104977730304]
変分オートエンコーダのような連続潜伏空間に基づく確率モデルは、非可算混合モデルとして理解することができる。
確率回路(PC)は階層的な離散混合モデルとして理解することができる。
本稿では,少ない潜在次元のトラクタブルモデルの連続混合というハイブリッドアプローチについて検討する。
論文 参考訳(メタデータ) (2022-09-21T18:18:32Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。