論文の概要: On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.10763v2
- Date: Thu, 15 Jun 2023 17:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:26:03.039880
- Title: On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning
- Title(参考訳): モデルに基づく強化学習によるクロスタスク伝達の可能性について
- Authors: Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen
Tu
- Abstract要約: 最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
- 参考スコア(独自算出の注目度): 45.73223325256312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) algorithms can solve challenging control problems
directly from image observations, but they often require millions of
environment interactions to do so. Recently, model-based RL algorithms have
greatly improved sample-efficiency by concurrently learning an internal model
of the world, and supplementing real environment interactions with imagined
rollouts for policy improvement. However, learning an effective model of the
world from scratch is challenging, and in stark contrast to humans that rely
heavily on world understanding and visual cues for learning new skills. In this
work, we investigate whether internal models learned by modern model-based RL
algorithms can be leveraged to solve new, distinctly different tasks faster. We
propose Model-Based Cross-Task Transfer (XTRA), a framework for
sample-efficient online RL with scalable pretraining and finetuning of learned
world models. By offline multi-task pretraining and online cross-task
finetuning, we achieve substantial improvements over a baseline trained from
scratch; we improve mean performance of model-based algorithm EfficientZero by
23%, and by as much as 71% in some instances.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、画像観察から直接、困難な制御問題を解くことができるが、数百万の環境相互作用を必要とすることが多い。
近年、モデルベースRLアルゴリズムは、世界の内部モデルを同時に学習し、実環境の相互作用を想像上のロールアウトで補うことで、サンプル効率を大幅に改善した。
しかし、スクラッチから世界の効果的なモデルを学ぶことは困難であり、新しいスキルを学ぶために世界の理解と視覚的手がかりに大きく依存する人間とは対照的である。
本研究では,最新のモデルベースRLアルゴリズムで学習した内部モデルを用いて,新しい,明らかに異なるタスクを高速に解くことができるかを検討する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
オフラインのマルチタスク事前トレーニングとオンラインクロスタスクの微調整により、スクラッチからトレーニングしたベースラインよりも大幅に改善され、モデルベースのアルゴリズムであるEfficientZeroの平均性能が23%向上し、場合によっては71%向上した。
関連論文リスト
- ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文 参考訳(メタデータ) (2023-06-15T19:37:43Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。