論文の概要: Investigating the role of model-based learning in exploration and
transfer
- arxiv url: http://arxiv.org/abs/2302.04009v1
- Date: Wed, 8 Feb 2023 11:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:39:14.756591
- Title: Investigating the role of model-based learning in exploration and
transfer
- Title(参考訳): 探索・移動におけるモデルベース学習の役割の検討
- Authors: Jacob Walker, Eszter V\'ertes, Yazhe Li, Gabriel Dulac-Arnold, Ankesh
Anand, Th\'eophane Weber, Jessica B. Hamrick
- Abstract要約: 本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 11.652741003589027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State of the art reinforcement learning has enabled training agents on tasks
of ever increasing complexity. However, the current paradigm tends to favor
training agents from scratch on every new task or on collections of tasks with
a view towards generalizing to novel task configurations. The former suffers
from poor data efficiency while the latter is difficult when test tasks are
out-of-distribution. Agents that can effectively transfer their knowledge about
the world pose a potential solution to these issues. In this paper, we
investigate transfer learning in the context of model-based agents.
Specifically, we aim to understand when exactly environment models have an
advantage and why. We find that a model-based approach outperforms controlled
model-free baselines for transfer learning. Through ablations, we show that
both the policy and dynamics model learnt through exploration matter for
successful transfer. We demonstrate our results across three domains which vary
in their requirements for transfer: in-distribution procedural (Crafter),
in-distribution identical (RoboDesk), and out-of-distribution (Meta-World). Our
results show that intrinsic exploration combined with environment models
present a viable direction towards agents that are self-supervised and able to
generalize to novel reward functions.
- Abstract(参考訳): state of the art reinforcement learningは、複雑さが増すタスクのトレーニングエージェントを可能にした。
しかし、現在のパラダイムでは、新しいタスクや新しいタスク構成への一般化を目的としたタスクの集合に対して、トレーニングエージェントをスクラッチから優先する傾向がある。
前者はデータ効率の低下に悩まされ、後者はテストタスクが配布外である場合に困難である。
世界の知識を効果的に伝達できるエージェントは、これらの問題に対する潜在的な解決策となる。
本稿ではモデルベースエージェントの文脈における伝達学習について検討する。
具体的には、環境モデルに利点と理由を正確に理解することを目指している。
モデルベースアプローチは、トランスファー学習のモデルフリーベースラインよりも優れています。
アブレーションにより, 政策モデルとダイナミクスモデルの両方が, 移動を成功させるために探索物質を通して学習できることを実証する。
転送要求が異なる3つの領域 – in-distriion procedural (Crafter), in-distriion same (RoboDesk), out-of-distriion (Meta-World) – で結果を示す。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
関連論文リスト
- MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Which Model to Transfer? Finding the Needle in the Growing Haystack [27.660318887140203]
我々は後悔というよく知られた概念を通じてこの問題の形式化を提供する。
タスク非依存とタスク認識の両方の手法が,後悔を招きかねないことを示す。
そこで我々は,既存の手法よりも優れた,シンプルで効率的なハイブリッド検索戦略を提案する。
論文 参考訳(メタデータ) (2020-10-13T14:00:22Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Meta Adaptation using Importance Weighted Demonstrations [19.37671674146514]
エージェントが新しいタスクを推測することが困難である場合も少なくない。
本稿では,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。
環境タスクの多様性からロボットを訓練し、目に見えない環境に適応できる実験を行った。
論文 参考訳(メタデータ) (2019-11-23T07:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。