論文の概要: Learning General World Models in a Handful of Reward-Free Deployments
- arxiv url: http://arxiv.org/abs/2210.12719v1
- Date: Sun, 23 Oct 2022 12:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:20:58.245244
- Title: Learning General World Models in a Handful of Reward-Free Deployments
- Title(参考訳): Reward-free Deploymentsによる一般世界モデル学習
- Authors: Yingchen Xu, Jack Parker-Holder, Aldo Pacchiano, Philip J. Ball, Oleh
Rybkin, Stephen J. Roberts, Tim Rockt\"aschel, Edward Grefenstette
- Abstract要約: 汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
- 参考スコア(独自算出の注目度): 53.06205037827802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building generally capable agents is a grand challenge for deep reinforcement
learning (RL). To approach this challenge practically, we outline two key
desiderata: 1) to facilitate generalization, exploration should be task
agnostic; 2) to facilitate scalability, exploration policies should collect
large quantities of data without costly centralized retraining. Combining these
two properties, we introduce the reward-free deployment efficiency setting, a
new paradigm for RL research. We then present CASCADE, a novel approach for
self-supervised exploration in this new setting. CASCADE seeks to learn a world
model by collecting data with a population of agents, using an information
theoretic objective inspired by Bayesian Active Learning. CASCADE achieves this
by specifically maximizing the diversity of trajectories sampled by the
population through a novel cascading objective. We provide theoretical
intuition for CASCADE which we show in a tabular setting improves upon na\"ive
approaches that do not account for population diversity. We then demonstrate
that CASCADE collects diverse task-agnostic datasets and learns agents that
generalize zero-shot to novel, unseen downstream tasks on Atari, MiniGrid,
Crafter and the DM Control Suite. Code and videos are available at
https://ycxuyingchen.github.io/cascade/
- Abstract(参考訳): 一般的に有能なエージェントを構築することは、深層強化学習(RL)の大きな課題である。
この課題に実際にアプローチするには、2つの重要なデシデラタを概説します。
1) 一般化を促進するためには,探索はタスク非依存であるべきである。
2) 拡張性を促進するため,探索政策では大量のデータ収集を行う必要がある。
これら2つの特性を組み合わせることで,rl研究の新しいパラダイムである報酬フリーデプロイメント効率設定を導入する。
そこで我々は,新しい環境下での自己監督型探査手法であるCASCADEを提案する。
カスケードはベイズアクティブラーニングに触発された情報理論の目的を用いて、エージェント集団によるデータ収集によって世界モデルを学ぶことを目指している。
CASCADEは、新しいカスケード目的により、個体群によってサンプリングされた軌道の多様性を具体的に最大化する。
我々はCASCADEの理論的直観として、人口多様性を考慮しない「Na\」アプローチを表形式で改善することを示す。
次に、CASCADEは多様なタスクに依存しないデータセットを収集し、Atari、MiniGrid、Crafter、DM Control Suite上でゼロショットから新しいダウンストリームタスクに一般化するエージェントを学習する。
コードとビデオはhttps://ycxuyingchen.github.io/cascade/で入手できる。
関連論文リスト
- A Survey on Deep Active Learning: Recent Advances and New Frontiers [27.07154361976248]
この研究は、ディープラーニングに基づくアクティブラーニング(DAL)の難しさを克服する上で、研究者にとって有用かつ迅速なガイドとなることを目的としている。
この手法は適用可能性の広さから人気が高まりつつあるが、特にディープラーニングに基づくアクティブラーニング(DAL)に関する調査論文は乏しいままである。
論文 参考訳(メタデータ) (2024-05-01T05:54:33Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。