論文の概要: Causal Dynamics Learning for Task-Independent State Abstraction
- arxiv url: http://arxiv.org/abs/2206.13452v1
- Date: Mon, 27 Jun 2022 17:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:54:52.894759
- Title: Causal Dynamics Learning for Task-Independent State Abstraction
- Title(参考訳): タスク依存状態抽象化のための因果ダイナミクス学習
- Authors: Zizhao Wang, Xuesu Xiao, Zifan Xu, Yuke Zhu, Peter Stone
- Abstract要約: タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
- 参考スコア(独自算出の注目度): 61.707048209272884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning dynamics models accurately is an important goal for Model-Based
Reinforcement Learning (MBRL), but most MBRL methods learn a dense dynamics
model which is vulnerable to spurious correlations and therefore generalizes
poorly to unseen states. In this paper, we introduce Causal Dynamics Learning
for Task-Independent State Abstraction (CDL), which first learns a
theoretically proved causal dynamics model that removes unnecessary
dependencies between state variables and the action, thus generalizing well to
unseen states. A state abstraction can then be derived from the learned
dynamics, which not only improves sample efficiency but also applies to a wider
range of tasks than existing state abstraction methods. Evaluated on two
simulated environments and downstream tasks, both the dynamics model and
policies learned by the proposed method generalize well to unseen states and
the derived state abstraction improves sample efficiency compared to learning
without it.
- Abstract(参考訳): モデルベース強化学習(MBRL)の重要な目標として,モデルに基づく強化学習(MBRL)を正確に学習することが重要である。
本稿では,タスク非依存状態抽象化のための因果ダイナミクス学習(CDL)を紹介し,まず,状態変数と動作間の不要な依存関係を除去する理論的に証明された因果ダイナミクスモデルについて述べる。
状態抽象化は、サンプル効率を向上させるだけでなく、既存の状態抽象化メソッドよりも幅広いタスクに適用できる、学習されたダイナミクスから導出することができる。
2つのシミュレート環境と下流タスクで評価し,提案手法で学習したダイナミクスモデルとポリシーは未認識の状態によく一般化し,導出状態抽象化は学習時よりもサンプル効率が向上する。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Dynamic probabilistic logic models for effective abstractions in RL [35.54018388244684]
RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
論文 参考訳(メタデータ) (2021-10-15T18:53:04Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。