論文の概要: Dynamic probabilistic logic models for effective abstractions in RL
- arxiv url: http://arxiv.org/abs/2110.08318v1
- Date: Fri, 15 Oct 2021 18:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:39:31.015184
- Title: Dynamic probabilistic logic models for effective abstractions in RL
- Title(参考訳): rlにおける効果的な抽象化のための動的確率論理モデル
- Authors: Harsha Kokel, Arjun Manoharan, Sriraam Natarajan, Balaraman Ravindran,
Prasad Tadepalli
- Abstract要約: RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
- 参考スコア(独自算出の注目度): 35.54018388244684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State abstraction enables sample-efficient learning and better task transfer
in complex reinforcement learning environments. Recently, we proposed RePReL
(Kokel et al. 2021), a hierarchical framework that leverages a relational
planner to provide useful state abstractions for learning. We present a brief
overview of this framework and the use of a dynamic probabilistic logic model
to design these state abstractions. Our experiments show that RePReL not only
achieves better performance and efficient learning on the task at hand but also
demonstrates better generalization to unseen tasks.
- Abstract(参考訳): 状態抽象化は、複雑な強化学習環境におけるサンプル効率の学習とタスク転送の改善を可能にする。
最近我々はRePReL(Kokel et al. 2021)を提案した。これは階層的なフレームワークで、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
本稿では、このフレームワークの概要と、これらの状態抽象化を設計するための動的確率論理モデルについて述べる。
実験の結果,RePReLは手前のタスクにおいて,より優れた性能と効率的な学習を実現するだけでなく,見つからないタスクに対するより良い一般化も示している。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。