論文の概要: VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.10324v3
- Date: Fri, 31 Mar 2023 06:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:47:46.574440
- Title: VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning
- Title(参考訳): VRL3: ビジュアルディープ強化学習のためのデータ駆動フレームワーク
- Authors: Che Wang, Xufang Luo, Keith Ross, Dongsheng Li
- Abstract要約: 視覚深層学習(DRL)課題を解決するためのデータ駆動型フレームワークであるVRL3を提案する。
我々のフレームワークには3つのステージがある: ステージ1では非RLデータセットを利用してタスクに依存しない視覚表現を学習し、ステージ2ではオフラインRLデータを使用し、ステージ3ではエージェントをオンラインRLで微調整する。
一連の手操作タスクにおいて、VRL3は平均して780%のサンプル効率を達成する。
- 参考スコア(独自算出の注目度): 14.869611817084015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VRL3, a powerful data-driven framework with a simple design for
solving challenging visual deep reinforcement learning (DRL) tasks. We analyze
a number of major obstacles in taking a data-driven approach, and present a
suite of design principles, novel findings, and critical insights about
data-driven visual DRL. Our framework has three stages: in stage 1, we leverage
non-RL datasets (e.g. ImageNet) to learn task-agnostic visual representations;
in stage 2, we use offline RL data (e.g. a limited number of expert
demonstrations) to convert the task-agnostic representations into more powerful
task-specific representations; in stage 3, we fine-tune the agent with online
RL. On a set of challenging hand manipulation tasks with sparse reward and
realistic visual inputs, compared to the previous SOTA, VRL3 achieves an
average of 780% better sample efficiency. And on the hardest task, VRL3 is
1220% more sample efficient (2440% when using a wider encoder) and solves the
task with only 10% of the computation. These significant results clearly
demonstrate the great potential of data-driven deep reinforcement learning.
- Abstract(参考訳): 視覚深層学習(DRL)課題を解決するためのシンプルな設計の強力なデータ駆動型フレームワークであるVRL3を提案する。
我々は、データ駆動アプローチをとる際の多くの大きな障害を分析し、データ駆動型ビジュアルDRLに関する一連の設計原則、新しい発見、重要な洞察を示す。
我々のフレームワークには3つのステージがある: ステージ1では非RLデータセット(例: ImageNet)を使ってタスクに依存しない視覚表現を学習し、ステージ2ではオフラインのRLデータ(例: 限られた数の専門家によるデモンストレーション)を使ってタスクに依存しない表現をより強力なタスク固有の表現に変換する。
前回のSOTAと比べ、手操作の難易度とリアルな視覚入力による課題に対して、VRL3は平均して780%のサンプル効率を達成する。
最も困難なタスクでは、VRL3は1220%のサンプリング効率(より広いエンコーダを使用する場合の2440%)で、計算の10%しか処理しない。
これらの重要な結果は、データ駆動の深層強化学習の大きな可能性を示している。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。