論文の概要: Planning under Distribution Shifts with Causal POMDPs
- arxiv url: http://arxiv.org/abs/2602.23545v1
- Date: Thu, 26 Feb 2026 23:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.162887
- Title: Planning under Distribution Shifts with Causal POMDPs
- Title(参考訳): 因果的POMDPによる配電シフト時の計画
- Authors: Matteo Ceriscioli, Karthika Mohan,
- Abstract要約: 本稿では,部分観測可能マルコフ決定プロセス(POMDP)を用いた部分観測可能性下での計画手法を提案する。
我々は、潜在状態と基礎領域の両方に対する信念の維持と更新方法を示し、値関数が一括線形かつ凸であることを証明する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the real world, planning is often challenged by distribution shifts. As such, a model of the environment obtained under one set of conditions may no longer remain valid as the distribution of states or the environment dynamics change, which in turn causes previously learned strategies to fail. In this work, we propose a theoretical framework for planning under partial observability using Partially Observable Markov Decision Processes (POMDPs) formulated using causal knowledge. By representing shifts in the environment as interventions on this causal POMDP, the framework enables evaluating plans under hypothesized changes and actively identifying which components of the environment have been altered. We show how to maintain and update a belief over both the latent state and the underlying domain, and we prove that the value function remains piecewise linear and convex (PWLC) in this augmented belief space. Preservation of PWLC under distribution shifts has the advantage of maintaining the tractability of planning via $α$-vector-based POMDP methods.
- Abstract(参考訳): 現実の世界では、計画はしばしば分散シフトによって挑戦されます。
そのため、一組の条件下で得られた環境のモデルは、状態の分布や環境のダイナミクスが変化するにつれて、もはや有効に保たれず、その結果、それまでの学習戦略が失敗する。
本研究では,部分観測可能マルコフ決定過程(POMDP)を因果知識を用いて定式化した部分観測可能性に基づく計画手法を提案する。
この因果的POMDPの介入として環境の変化を表現することにより、仮説的な変更の下での計画の評価を可能にし、環境のどのコンポーネントが変更されたかを積極的に特定することができる。
我々は、潜伏状態と根本領域の両方に対する信念の維持と更新方法を示し、この拡張された信念空間において、値関数が断片的に線形で凸(PWLC)のままであることを証明する。
分散シフト下でのPWLCの保存は、$α$-vector-based POMDP法によるプランニングのトラクタビリティを維持する利点がある。
関連論文リスト
- On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - Towards Causal Model-Based Policy Optimization [0.24578723416255752]
因果モデルに基づく政策最適化(C-MBPO)を紹介する。
C-MBPOは、因果学習をモデルベース強化学習パイプラインに統合する新しいフレームワークである。
我々は、C-MBPOが、動的に急激で非因果関係に影響を及ぼす分布シフトのクラスに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:09:02Z) - CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in
Confounded Environments [5.979296454783688]
正確で堅牢な行動予測を行う上での大きな課題は、コンファウンディングの問題である。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらと部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。
本稿では,不測な共同設立変数による誤りを解消するために,「常時正規化決定された部分観測木」(AR-DESPOT)の因果的インフォームド拡張を提案する。
論文 参考訳(メタデータ) (2023-04-13T22:32:21Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Planning in Observable POMDPs in Quasipolynomial Time [21.03037504572896]
我々は観測可能なPOMDPの計画のための準ポリノミカル時間アルゴリズムを開発した。
我々は、状態上のよく分断された分布が観察上のよく分断された分布をもたらすと仮定する。
観測可能なPOMDPの指数時間仮説の下での計画に適合する硬さを実証する。
論文 参考訳(メタデータ) (2022-01-12T23:16:37Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces [5.732271870257913]
不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-08T09:31:48Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Value of structural health information in partially observable
stochastic environments [0.0]
情報の価値(VoI)と構造健康モニタリング(VoSHM)の理論的・計算的基礎を紹介し,研究する。
この結果から,POMDP政策はVoIの概念を本質的に活用し,各決定ステップにおいて最適な方法で観測行動の導出を行うことが示唆された。
論文 参考訳(メタデータ) (2019-12-28T22:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。