論文の概要: Measurement Simplification in ρ-POMDP with Performance Guarantees
- arxiv url: http://arxiv.org/abs/2309.10701v2
- Date: Mon, 17 Jun 2024 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:40:28.001477
- Title: Measurement Simplification in ρ-POMDP with Performance Guarantees
- Title(参考訳): 性能保証を用いたρ-POMDPの簡易化
- Authors: Tom Yotam, Vadim Indelman,
- Abstract要約: 不確実性の下での意思決定は、不完全な情報で行動する自律システムの中心にある。
本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。
境界は適応的で、計算効率が良く、元の解に収束していることが示される。
- 参考スコア(独自算出の注目度): 6.129902017281406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision making under uncertainty is at the heart of any autonomous system acting with imperfect information. The cost of solving the decision making problem is exponential in the action and observation spaces, thus rendering it unfeasible for many online systems. This paper introduces a novel approach to efficient decision-making, by partitioning the high-dimensional observation space. Using the partitioned observation space, we formulate analytical bounds on the expected information-theoretic reward, for general belief distributions. These bounds are then used to plan efficiently while keeping performance guarantees. We show that the bounds are adaptive, computationally efficient, and that they converge to the original solution. We extend the partitioning paradigm and present a hierarchy of partitioned spaces that allows greater efficiency in planning. We then propose a specific variant of these bounds for Gaussian beliefs and show a theoretical performance improvement of at least a factor of 4. Finally, we compare our novel method to other state of the art algorithms in active SLAM scenarios, in simulation and in real experiments. In both cases we show a significant speed-up in planning with performance guarantees.
- Abstract(参考訳): 不確実性の下での意思決定は、不完全な情報で行動する自律システムの中心にある。
意思決定問題を解決するコストは行動や観察空間において指数関数的であり、多くのオンラインシステムでは実現不可能である。
本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。
分割された観測空間を用いて、一般的な信念分布に対する期待される情報理論的報酬に関する解析的境界を定式化する。
これらのバウンダリは、パフォーマンスの保証を維持しながら、効率的に計画するために使用される。
境界は適応的で、計算効率が良く、元の解に収束していることが示される。
分割パラダイムを拡張し、分割空間の階層構造を示し、計画の効率性を高める。
次に、ガウス的信念に対するこれらの境界の特定の変種を提案し、少なくとも 4 の係数の理論的性能改善を示す。
最後に,本手法を,能動SLAMシナリオ,シミュレーション,実実験において,他の最先端アルゴリズムと比較する。
どちらの場合も、性能保証を伴う計画の大幅なスピードアップを示します。
関連論文リスト
- An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Efficient Alternating Minimization Solvers for Wyner Multi-View
Unsupervised Learning [0.0]
本稿では,計算効率のよい解法の開発を可能にする2つの新しい定式化法を提案する。
提案した解法は, 計算効率, 理論的収束保証, ビュー数による局所最小値複雑性, 最先端技術と比較して, 例外的な精度を提供する。
論文 参考訳(メタデータ) (2023-03-28T10:17:51Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Distributed Sketching for Randomized Optimization: Exact
Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。
ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文 参考訳(メタデータ) (2022-03-18T05:49:13Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。