論文の概要: Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.12497v1
- Date: Tue, 23 Jan 2024 05:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:41:56.053008
- Title: Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning
- Title(参考訳): 強化学習のための最小かつ再利用可能な因果状態抽象化の構築
- Authors: Zizhao Wang, Caroline Wang, Xuesu Xiao, Yuke Zhu, Peter Stone
- Abstract要約: Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
- 参考スコア(独自算出の注目度): 63.58935783293342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two desiderata of reinforcement learning (RL) algorithms are the ability to
learn from relatively little experience and the ability to learn policies that
generalize to a range of problem specifications. In factored state spaces, one
approach towards achieving both goals is to learn state abstractions, which
only keep the necessary variables for learning the tasks at hand. This paper
introduces Causal Bisimulation Modeling (CBM), a method that learns the causal
relationships in the dynamics and reward functions for each task to derive a
minimal, task-specific abstraction. CBM leverages and improves implicit
modeling to train a high-fidelity causal dynamics model that can be reused for
all tasks in the same environment. Empirical validation on manipulation
environments and Deepmind Control Suite reveals that CBM's learned implicit
dynamics models identify the underlying causal relationships and state
abstractions more accurately than explicit ones. Furthermore, the derived state
abstractions allow a task learner to achieve near-oracle levels of sample
efficiency and outperform baselines on all tasks.
- Abstract(参考訳): 強化学習(rl)アルゴリズムの2つのデシデラタは、比較的少ない経験から学ぶ能力と、様々な問題仕様に一般化したポリシーを学ぶ能力である。
因子化された状態空間では、両方の目標を達成するための1つのアプローチは状態抽象化を学ぶことである。
本稿では,各タスクの因果関係と報酬関数を学習し,最小限のタスク固有の抽象化を導出する手法であるCausal Bisimulation Modeling (CBM)を紹介する。
CBMは暗黙のモデリングを活用して、同じ環境で全てのタスクに再利用可能な高忠実度因果ダイナミクスモデルをトレーニングする。
操作環境とdeepmindコントロールスイートに関する経験的検証により、cbmが学習した暗黙のダイナミクスモデルは、明示的なものよりも基礎となる因果関係と状態抽象化をより正確に識別する。
さらに、引き起こされた状態抽象化により、タスク学習者は、サンプル効率のほぼ全レベルを達成でき、全てのタスクのベースラインを上回る。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。