論文の概要: ESCORT: Efficient Stein-variational and Sliced Consistency-Optimized Temporal Belief Representation for POMDPs
- arxiv url: http://arxiv.org/abs/2510.21107v1
- Date: Fri, 24 Oct 2025 02:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.364136
- Title: ESCORT: Efficient Stein-variational and Sliced Consistency-Optimized Temporal Belief Representation for POMDPs
- Title(参考訳): ESCORT:POMDPの高効率スタイン変分法とスライス整合性最適化時間的信念表現
- Authors: Yunuo Zhang, Baiting Luo, Ayan Mukhopadhyay, Gabor Karsai, Abhishek Dubey,
- Abstract要約: ESCORTは高次元の信念空間における複雑な多モード分布を捉えるための粒子ベースのフレームワークである。
ESCORTはSVGDを拡張し、状態次元間の依存関係をモデル化する相関対応プロジェクションと、相関構造を保持しながら更新を安定化する時間的一貫性の制約である。
各種次元のPOMDPドメインと合成多モード分布の両領域における広範囲な評価により, ESCORTの有効性を実証した。
- 参考スコア(独自算出の注目度): 7.361361150597151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Partially Observable Markov Decision Processes (POMDPs), maintaining and updating belief distributions over possible underlying states provides a principled way to summarize action-observation history for effective decision-making under uncertainty. As environments grow more realistic, belief distributions develop complexity that standard mathematical models cannot accurately capture, creating a fundamental challenge in maintaining representational accuracy. Despite advances in deep learning and probabilistic modeling, existing POMDP belief approximation methods fail to accurately represent complex uncertainty structures such as high-dimensional, multi-modal belief distributions, resulting in estimation errors that lead to suboptimal agent behaviors. To address this challenge, we present ESCORT (Efficient Stein-variational and sliced Consistency-Optimized Representation for Temporal beliefs), a particle-based framework for capturing complex, multi-modal distributions in high-dimensional belief spaces. ESCORT extends SVGD with two key innovations: correlation-aware projections that model dependencies between state dimensions, and temporal consistency constraints that stabilize updates while preserving correlation structures. This approach retains SVGD's attractive-repulsive particle dynamics while enabling accurate modeling of intricate correlation patterns. Unlike particle filters prone to degeneracy or parametric methods with fixed representational capacity, ESCORT dynamically adapts to belief landscape complexity without resampling or restrictive distributional assumptions. We demonstrate ESCORT's effectiveness through extensive evaluations on both POMDP domains and synthetic multi-modal distributions of varying dimensionality, where it consistently outperforms state-of-the-art methods in terms of belief approximation accuracy and downstream decision quality.
- Abstract(参考訳): 部分的に観察可能なマルコフ決定プロセス(POMDP)では、根底にある可能性のある状態に対する信念分布の維持と更新は、不確実性の下での効果的な意思決定のための行動観測履歴を要約する原則的な方法を提供する。
環境がより現実的になるにつれて、信念分布は標準的な数学的モデルでは正確に捉えられない複雑さを生じさせ、表現精度を維持するための根本的な課題を生み出す。
ディープラーニングと確率的モデリングの進歩にもかかわらず、既存のPOMDPの信念近似法は、高次元のマルチモーダルな信念分布のような複雑な不確実性構造を正確に表現することができない。
この課題に対処するために、高次元の信念空間における複雑なマルチモーダル分布を捉えるための粒子ベースのフレームワークである ESCORT (Efficient Stein-variational and sliced Consistency-Optimized Representation for Temporal beliefs) を提案する。
ESCORTはSVGDを拡張し、状態次元間の依存関係をモデル化する相関対応プロジェクションと、相関構造を保持しながら更新を安定化する時間的一貫性の制約である。
このアプローチは、複雑な相関パターンの正確なモデリングを可能にしながら、SVGDの魅力的な反発粒子動力学を維持している。
縮退やパラメトリックな方法で表現能力が固定された粒子フィルタとは異なり、ESCORTは再サンプリングや限定的な分布仮定を伴わずに、信念の景観の複雑さに動的に適応する。
ESCORTの有効性を,POMDPドメインと様々な次元の合成マルチモーダル分布の双方で広範囲に評価することで実証する。
関連論文リスト
- Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Robust Counterfactual Inference in Markov Decision Processes [3.047215509762019]
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。
反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T13:56:20Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - On the Foundation of Distributionally Robust Reinforcement Learning [24.192793490860254]
我々は、分布的堅牢性強化学習(DRRL)の理論的基礎に貢献する。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
動的プログラミング原理(DPP)の有無について検討する。
論文 参考訳(メタデータ) (2023-11-15T15:02:23Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [71.59406356321101]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。