論文の概要: Model-Invariant State Abstractions for Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.09850v1
- Date: Fri, 19 Feb 2021 10:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:31:37.872231
- Title: Model-Invariant State Abstractions for Model-Based Reinforcement
Learning
- Title(参考訳): モデルベース強化学習のためのモデル不変状態抽象化
- Authors: Manan Tomar, Amy Zhang, Roberto Calandra, Matthew E. Taylor, Joelle
Pineau
- Abstract要約: textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
- 参考スコア(独自算出の注目度): 54.616645151708994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accuracy and generalization of dynamics models is key to the success of
model-based reinforcement learning (MBRL). As the complexity of tasks
increases, learning dynamics models becomes increasingly sample inefficient for
MBRL methods. However, many tasks also exhibit sparsity in the dynamics, i.e.,
actions have only a local effect on the system dynamics. In this paper, we
exploit this property with a causal invariance perspective in the single-task
setting, introducing a new type of state abstraction called
\textit{model-invariance}. Unlike previous forms of state abstractions, a
model-invariance state abstraction leverages causal sparsity over state
variables. This allows for generalization to novel combinations of unseen
values of state variables, something that non-factored forms of state
abstractions cannot do. We prove that an optimal policy can be learned over
this model-invariance state abstraction. Next, we propose a practical method to
approximately learn a model-invariant representation for complex domains. We
validate our approach by showing improved modeling performance over standard
maximum likelihood approaches on challenging tasks, such as the MuJoCo-based
Humanoid. Furthermore, within the MBRL setting we show strong performance gains
w.r.t. sample efficiency across a host of other continuous control tasks.
- Abstract(参考訳): モデルベース強化学習(mbrl)の成功には,ダイナミクスモデルの精度と一般化が重要である。
タスクの複雑さが増すにつれて、MBRLメソッドではダイナミクスモデルの学習がサンプル非効率になる。
しかし、多くのタスクはダイナミクスのスパーシティ、すなわち、アクションはシステムのダイナミクスに局所的な影響しか与えない。
本稿では,この特性を単一タスク設定における因果不変性の観点から活用し, \textit{model-invariance} と呼ばれる新しい状態抽象化を導入する。
以前の状態抽象化と異なり、モデル非分散状態抽象化は状態変数よりも因果スパーシティを利用する。
これにより、状態変数の目に見えない値の新規な組み合わせを一般化することができる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
次に,複素領域のモデル不変表現を学習するための実用的手法を提案する。
我々は,mujocoベースのヒューマノイドのような課題に対して,標準最大ラピッドアプローチよりも優れたモデリング性能を示すことにより,このアプローチを検証する。
さらに、MBRL設定では、強い性能向上を示す。
他の連続制御タスクのホスト全体におけるサンプル効率。
関連論文リスト
- Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。