論文の概要: CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in
Confounded Environments
- arxiv url: http://arxiv.org/abs/2304.06848v2
- Date: Wed, 12 Jul 2023 16:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:28:01.561285
- Title: CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in
Confounded Environments
- Title(参考訳): CAR-DESPOT:共生環境におけるロボットのための因果形オンラインPOMDP計画
- Authors: Ricardo Cannizzaro, Lars Kunze
- Abstract要約: 正確で堅牢な行動予測を行う上での大きな課題は、コンファウンディングの問題である。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらと部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。
本稿では,不測な共同設立変数による誤りを解消するために,「常時正規化決定された部分観測木」(AR-DESPOT)の因果的インフォームド拡張を提案する。
- 参考スコア(独自算出の注目度): 5.979296454783688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in real-world environments must reason about possible
outcomes of stochastic actions and make decisions based on partial observations
of the true world state. A major challenge for making accurate and robust
action predictions is the problem of confounding, which if left untreated can
lead to prediction errors. The partially observable Markov decision process
(POMDP) is a widely-used framework to model these stochastic and
partially-observable decision-making problems. However, due to a lack of
explicit causal semantics, POMDP planning methods are prone to confounding bias
and thus in the presence of unobserved confounders may produce underperforming
policies. This paper presents a novel causally-informed extension of "anytime
regularized determinized sparse partially observable tree" (AR-DESPOT), a
modern anytime online POMDP planner, using causal modelling and inference to
eliminate errors caused by unmeasured confounder variables. We further propose
a method to learn offline the partial parameterisation of the causal model for
planning, from ground truth model data. We evaluate our methods on a toy
problem with an unobserved confounder and show that the learned causal model is
highly accurate, while our planning method is more robust to confounding and
produces overall higher performing policies than AR-DESPOT.
- Abstract(参考訳): 現実の環境で動くロボットは、確率的な行動の結果を推論し、真の世界状態の部分的な観察に基づく決定をしなければならない。
正確でロバストな行動予測を行う上での大きな課題は、統合の問題であり、もし未処理のままにしておくと予測エラーにつながる可能性がある。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらの確率的かつ部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。
しかしながら、明示的な因果意味論の欠如により、pomdpの計画手法はバイアスを和らげる傾向にあり、従って、観察されていない共同創設者の存在下では、低パフォーマンスなポリシーを生み出す可能性がある。
本稿では,現代オンラインPOMDPプランナであるAR-DESPOTの因果的インフォームド拡張について,因果的モデリングと推論を用いて,不測の共起変数によるエラーを除去する手法を提案する。
さらに,提案手法は,基礎的真理モデルデータから因果モデルの部分パラメータ化をオフラインで学習する手法を提案する。
我々は,未観測の共同創設者による玩具問題に対する手法の評価を行い,学習した因果モデルが非常に正確であることを示し,また,提案手法はAR-DESPOTよりも総合的に高い性能の政策を立案し,より堅牢であることを示す。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。