論文の概要: Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction
- arxiv url: http://arxiv.org/abs/2408.11816v2
- Date: Thu, 12 Dec 2024 21:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:56.314502
- Title: Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction
- Title(参考訳): オブジェクト中心の抽象化による効率的な探索と識別的世界モデル学習
- Authors: Anthony GX-Chen, Kenneth Marino, Rob Fergus,
- Abstract要約: エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化し、プリミティブアクションへの高レベルの時間抽象化で属性を変更することで、階層的に最もよく解決されている。
我々は,識別的世界モデルを学ぶ完全モデルに基づくアルゴリズムを提案し,数に基づく本質的な報酬のみを用いて効率的に探索し,その後に発見された(抽象的な)状態に到達する計画を立てる。
- 参考スコア(独自算出の注目度): 19.59151245929067
- License:
- Abstract: In the face of difficult exploration problems in reinforcement learning, we study whether giving an agent an object-centric mapping (describing a set of items and their attributes) allow for more efficient learning. We found this problem is best solved hierarchically by modelling items at a higher level of state abstraction to pixels, and attribute change at a higher level of temporal abstraction to primitive actions. This abstraction simplifies the transition dynamic by making specific future states easier to predict. We make use of this to propose a fully model-based algorithm that learns a discriminative world model, plans to explore efficiently with only a count-based intrinsic reward, and can subsequently plan to reach any discovered (abstract) states. We demonstrate the model's ability to (i) efficiently solve single tasks, (ii) transfer zero-shot and few-shot across item types and environments, and (iii) plan across long horizons. Across a suite of 2D crafting and MiniHack environments, we empirically show our model significantly out-performs state-of-the-art low-level methods (without abstraction), as well as performant model-free and model-based methods using the same abstraction. Finally, we show how to learn low level object-perturbing policies via reinforcement learning, and the object mapping itself by supervised learning.
- Abstract(参考訳): 強化学習における難解な探索問題に直面して,エージェントに対象中心のマッピング(項目とその属性のセットを記述する)を与えることで,より効率的な学習が可能になるかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化し、プリミティブアクションへの高レベルの時間抽象化で属性を変更することで、階層的に最もよく解決できることがわかった。
この抽象化は、特定の将来の状態を予測しやすくすることで、トランジションのダイナミクスを単純化する。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルに基づくアルゴリズムを提案し、カウントベースの本質的な報酬だけで効率的に探索し、その後に発見された(抽象的な)状態に到達する計画を立てる。
モデルの能力を示す
(i)単一のタスクを効率よく解決する。
(二 アイテムの種類及び環境をまたいでゼロショット及び少数ショットを転送すること。)
(三)長い地平線を横切る計画。
2DマニュファリングとMiniHack環境のスイート全体で、我々のモデルは(抽象化なしで)最先端の低レベルメソッドと、同じ抽象化を使ったパフォーマンスなモデルフリーおよびモデルベースメソッドとを著しく上回っていることを実証的に示します。
最後に、強化学習による低レベルのオブジェクト摂動ポリシーの学習方法と、教師あり学習によるオブジェクトマッピング自体の学習方法を示す。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Online Learning of Reusable Abstract Models for Object Goal Navigation [18.15382773079023]
未知環境の抽象モデルを漸進的に学習する新しい手法を提案する。
エージェントが学習したモデルを再利用してObject Goal Navigationタスクに対処する方法を示す。
論文 参考訳(メタデータ) (2022-03-04T21:44:43Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Dynamic probabilistic logic models for effective abstractions in RL [35.54018388244684]
RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
論文 参考訳(メタデータ) (2021-10-15T18:53:04Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。