論文の概要: Observation Adaptation via Annealed Importance Resampling for Partially Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2503.19302v1
- Date: Tue, 25 Mar 2025 03:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:46.102652
- Title: Observation Adaptation via Annealed Importance Resampling for Partially Observable Markov Decision Processes
- Title(参考訳): 部分観測可能なマルコフ決定過程における重要度再サンプリングによる観察適応
- Authors: Yunuo Zhang, Baiting Luo, Ayan Mukhopadhyay, Abhishek Dubey,
- Abstract要約: 部分観測可能なマルコフ決定過程(POMDPs)は、状態不確実性の下での環境における逐次決定のための一般的な数学的モデルである。
オンラインソルバは通常、信念分布を更新するための重要再サンプリングに基づいてブートストラップ粒子フィルタを使用する。
本稿では,モンテカルロの反復的なステップを通して,状態遷移と最適分布の間のブリッジ分布の列を構築する手法を提案する。
- 参考スコア(独自算出の注目度): 4.830416359005018
- License:
- Abstract: Partially observable Markov decision processes (POMDPs) are a general mathematical model for sequential decision-making in stochastic environments under state uncertainty. POMDPs are often solved \textit{online}, which enables the algorithm to adapt to new information in real time. Online solvers typically use bootstrap particle filters based on importance resampling for updating the belief distribution. Since directly sampling from the ideal state distribution given the latest observation and previous state is infeasible, particle filters approximate the posterior belief distribution by propagating states and adjusting weights through prediction and resampling steps. However, in practice, the importance resampling technique often leads to particle degeneracy and sample impoverishment when the state transition model poorly aligns with the posterior belief distribution, especially when the received observation is highly informative. We propose an approach that constructs a sequence of bridge distributions between the state-transition and optimal distributions through iterative Monte Carlo steps, better accommodating noisy observations in online POMDP solvers. Our algorithm demonstrates significantly superior performance compared to state-of-the-art methods when evaluated across multiple challenging POMDP domains.
- Abstract(参考訳): 部分観測可能なマルコフ決定過程 (POMDP) は、状態不確実性の下で確率的環境における逐次決定のための一般的な数学的モデルである。
POMDPは、しばしば textit{online} で解決され、アルゴリズムが新しい情報にリアルタイムで適応できるようにする。
オンラインソルバは通常、信念の分布を更新するための重要再サンプリングに基づいてブートストラップ粒子フィルタを使用する。
粒子フィルタは, 最新の観測と先行状態の理想的な状態分布から直接のサンプリングが可能であるため, 予測と再サンプリングのステップを通じて, 状態の伝播と重みの調整により, 後続の信念分布を近似する。
しかし、実際には、特に受信された観測が極めて情報的であった場合、状態遷移モデルが後続の信念分布と不整合している場合、重要再サンプリング技術は、しばしば粒子の退化とサンプルの貧困をもたらす。
我々は,モンテカルロの反復的なステップを通し,状態遷移と最適分布の間のブリッジ分布の列を構築する手法を提案する。
提案アルゴリズムは,複数の挑戦的POMDP領域にまたがって評価を行う場合,最先端の手法と比較して非常に優れた性能を示す。
関連論文リスト
- Inferring biological processes with intrinsic noise from cross-sectional data [0.8192907805418583]
データから動的モデルを推定することは、計算生物学における重要な課題である。
確率フロー推論(PFI)は,ODE推論のアルゴリズム的容易性を維持しつつ,本質性から力を引き離すことを示す。
実例では,PFIは高次元反応ネットワークにおける正確なパラメータと力の推定を可能にし,分子ノイズによる細胞分化動態の推測を可能にする。
論文 参考訳(メタデータ) (2024-10-10T00:33:25Z) - Spatially-Aware Diffusion Models with Cross-Attention for Global Field Reconstruction with Sparse Observations [1.371691382573869]
フィールド再構成タスクにおけるスコアベース拡散モデルの開発と拡張を行う。
本研究では,観測領域と観測領域の間のトラクタブルマッピングを構築するための条件符号化手法を提案する。
本研究では, モデルが再現可能かどうかを把握し, 融合結果の精度を向上する能力を示す。
論文 参考訳(メタデータ) (2024-08-30T19:46:23Z) - Persistent Sampling: Enhancing the Efficiency of Sequential Monte Carlo [0.0]
連続モンテカルロサンプリング(SMC)はベイズ推論の強力なツールであるが、高い計算コストに悩まされている。
我々は、SMCを維持し、全ての先行イテレーションから粒子を構成する永続サンプリング(PS)を導入する。
論文 参考訳(メタデータ) (2024-07-30T10:34:40Z) - Nonlinear Filtering with Brenier Optimal Transport Maps [4.745059103971596]
本稿では,非線形フィルタリング,すなわち動的システムの状態の条件分布の計算の問題について述べる。
従来の逐次重要再サンプリング(SIR)粒子フィルタは、縮退確率や高次元状態を含むシナリオにおいて、基本的な制限に悩まされる。
本稿では,Brenier 最適輸送 (OT) マップを,現在の状態の分布から次のステップにおける後部分布へ推定する手法について検討する。
論文 参考訳(メタデータ) (2023-10-21T01:34:30Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Computational Doob's h-transforms for Online Filtering of Discretely
Observed Diffusions [65.74069050283998]
本研究では,Doobの$h$-transformsを近似する計算フレームワークを提案する。
提案手法は、最先端粒子フィルタよりも桁違いに効率的である。
論文 参考訳(メタデータ) (2022-06-07T15:03:05Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。
我々は,新しい連続時間変動推定アルゴリズムを開発した。
モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-09-29T15:19:51Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。