論文の概要: Reinforcement Learning with Action-Free Pre-Training from Videos
- arxiv url: http://arxiv.org/abs/2203.13880v1
- Date: Fri, 25 Mar 2022 19:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:10:20.069285
- Title: Reinforcement Learning with Action-Free Pre-Training from Videos
- Title(参考訳): ビデオからのアクションフリー事前学習による強化学習
- Authors: Younggyo Seo, Kimin Lee, Stephen James, Pieter Abbeel
- Abstract要約: 本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
- 参考スコア(独自算出の注目度): 95.25074614579646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unsupervised pre-training methods have shown to be effective on
language and vision domains by learning useful representations for multiple
downstream tasks. In this paper, we investigate if such unsupervised
pre-training methods can also be effective for vision-based reinforcement
learning (RL). To this end, we introduce a framework that learns
representations useful for understanding the dynamics via generative
pre-training on videos. Our framework consists of two phases: we pre-train an
action-free latent video prediction model, and then utilize the pre-trained
representations for efficiently learning action-conditional world models on
unseen environments. To incorporate additional action inputs during
fine-tuning, we introduce a new architecture that stacks an action-conditional
latent prediction model on top of the pre-trained action-free prediction model.
Moreover, for better exploration, we propose a video-based intrinsic bonus that
leverages pre-trained representations. We demonstrate that our framework
significantly improves both final performances and sample-efficiency of
vision-based RL in a variety of manipulation and locomotion tasks. Code is
available at https://github.com/younggyoseo/apv.
- Abstract(参考訳): 最近の教師なし事前学習手法は、複数の下流タスクに有用な表現を学習することで、言語や視覚領域に効果的であることが示されている。
本稿では,教師なし事前学習が視覚に基づく強化学習(RL)にも有効かどうかを検討する。
そこで本研究では,映像における生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは2つのフェーズから構成される: アクションフリーの潜伏映像予測モデルを事前学習し、事前学習された表現を用いて、目に見えない環境下でアクション条件付き世界モデルを効率的に学習する。
微調整中に追加のアクション入力を組み込むため、事前学習されたアクションフリー予測モデルの上に、アクション条件潜在予測モデルを積み重ねる新しいアーキテクチャを導入する。
さらに,より優れた探索のために,事前学習した表現を活用するビデオベース固有のボーナスを提案する。
我々は,様々な操作や移動タスクにおいて,視覚に基づくRLの最終的な性能とサンプル効率の両方を大幅に改善することを示した。
コードはhttps://github.com/younggyoseo/apvで入手できる。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。