論文の概要: Dynamical-VAE-based Hindsight to Learn the Causal Dynamics of Factored-POMDPs
- arxiv url: http://arxiv.org/abs/2411.07832v1
- Date: Tue, 12 Nov 2024 14:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:40.917855
- Title: Dynamical-VAE-based Hindsight to Learn the Causal Dynamics of Factored-POMDPs
- Title(参考訳): 動的VAEに基づくHendsightによる因子POMDPの因果ダイナミクスの学習
- Authors: Chao Han, Debabrota Basu, Michael Mangan, Eleni Vasilaki, Aditya Gilra,
- Abstract要約: オフライン軌道から因果マルコフ力学を学習するための動的変分自動エンコーダ(DVAE)を提案する。
提案手法では,過去,現在,多段階の将来の情報を統合した拡張後視フレームワークを用いる。
実験結果から,本手法はヒストリベースや典型的な後視モデルよりも隠れ状態遷移を効率的に管理する因果グラフを明らかにする。
- 参考スコア(独自算出の注目度): 9.662551514840388
- License:
- Abstract: Learning representations of underlying environmental dynamics from partial observations is a critical challenge in machine learning. In the context of Partially Observable Markov Decision Processes (POMDPs), state representations are often inferred from the history of past observations and actions. We demonstrate that incorporating future information is essential to accurately capture causal dynamics and enhance state representations. To address this, we introduce a Dynamical Variational Auto-Encoder (DVAE) designed to learn causal Markovian dynamics from offline trajectories in a POMDP. Our method employs an extended hindsight framework that integrates past, current, and multi-step future information within a factored-POMDP setting. Empirical results reveal that this approach uncovers the causal graph governing hidden state transitions more effectively than history-based and typical hindsight-based models.
- Abstract(参考訳): 部分的な観察から基礎となる環境力学の表現を学習することは、機械学習において重要な課題である。
部分観測可能なマルコフ決定過程(POMDP)の文脈では、状態表現は過去の観測と行動の歴史からしばしば推測される。
我々は、因果ダイナミクスを正確に捉え、状態表現を強化するためには、将来的な情報の統合が不可欠であることを実証する。
そこで我々は,POMDPのオフライン軌道から因果マルコフ力学を学習するための動的変分自動エンコーダ(DVAE)を提案する。
提案手法では,過去,現在,多段階の将来の情報をファクタリング-POMDP設定に組み込んだ拡張後視フレームワークを用いる。
実験結果から,本手法はヒストリベースや典型的な後視モデルよりも隠れ状態遷移を効率的に管理する因果グラフを明らかにする。
関連論文リスト
- Remember and Recall: Associative-Memory-based Trajectory Prediction [25.349986959111757]
我々は,人間の顕著な学習能力に触発された,フラグメンテッドメモリに基づく軌道予測(FMTP)モデルを提案する。
FMTPモデルは、情報冗長性を低減し、計算効率を向上させるために離散表現を用いる。
言語モデルに基づく高度な推論エンジンを開発し、これらの離散表現間の連想規則を深く学習する。
論文 参考訳(メタデータ) (2024-10-03T04:32:21Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Modeling Spatio-temporal Dynamical Systems with Neural Discrete Learning
and Levels-of-Experts [33.335735613579914]
本稿では,ビデオフレームなどの観測結果に基づいて,時間・動的システムの状態変化をモデル化し,推定することの課題に対処する。
本稿では、一般的な物理プロセスの法則をデータ駆動方式で捉えるために、ユニバーサルエキスパートモジュール、すなわち光フロー推定コンポーネントを提案する。
我々は、既存のSOTAベースラインと比較して、提案フレームワークが大きなパフォーマンスマージンを達成することを示すため、広範囲な実験と改善を実施している。
論文 参考訳(メタデータ) (2024-02-06T06:27:07Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning [12.485293708638292]
本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
論文 参考訳(メタデータ) (2022-01-18T14:28:30Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Episodic Memory for Learning Subjective-Timescale Models [1.933681537640272]
モデルに基づく学習では、エージェントのモデルは、環境の連続状態間の遷移に対して一般的に定義される。
対照的に、生物学的生物の知的行動は、文脈によって異なる時間スケールを計画する能力によって特徴づけられる。
エージェントの主観的時間尺度を定義するエピソード記憶のシーケンスに基づいて、遷移力学モデルを学ぶための新しいアプローチを考案する。
論文 参考訳(メタデータ) (2020-10-03T21:55:40Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。