論文の概要: VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.10324v1
- Date: Thu, 17 Feb 2022 09:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:56:57.553783
- Title: VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning
- Title(参考訳): VRL3: ビジュアルディープ強化学習のためのデータ駆動フレームワーク
- Authors: Che Wang, Xufang Luo, Keith Ross, Dongsheng Li
- Abstract要約: 本稿では,高度に困難な視覚深層学習(DRL)課題を解決するためのデータ駆動型フレームワークを提案する。
我々は、データ駆動アプローチをとる際の多くの大きな障害を分析し、データ駆動型ビジュアルDRLに関する一連の設計原則、トレーニング戦略、重要な洞察を提示します。
- 参考スコア(独自算出の注目度): 14.869611817084015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple but powerful data-driven framework for solving highly
challenging visual deep reinforcement learning (DRL) tasks. We analyze a number
of major obstacles in taking a data-driven approach, and present a suite of
design principles, training strategies, and critical insights about data-driven
visual DRL. Our framework has three stages: in stage 1, we leverage non-RL
datasets (e.g. ImageNet) to learn task-agnostic visual representations; in
stage 2, we use offline RL data (e.g. a limited number of expert
demonstrations) to convert the task-agnostic representations into more powerful
task-specific representations; in stage 3, we fine-tune the agent with online
RL. On a set of highly challenging hand manipulation tasks with sparse reward
and realistic visual inputs, our framework learns 370%-1200% faster than the
previous SOTA method while using an encoder that is 50 times smaller, fully
demonstrating the potential of data-driven deep reinforcement learning.
- Abstract(参考訳): 高度に課題の多いdrl(visual deep reinforcement learning)タスクを解決するための,シンプルかつ強力なデータ駆動フレームワークを提案する。
我々は、データ駆動アプローチをとる際の多くの大きな障害を分析し、データ駆動型ビジュアルDRLに関する一連の設計原則、トレーニング戦略、重要な洞察を提示します。
我々のフレームワークには3つのステージがある: ステージ1では非RLデータセット(例: ImageNet)を使ってタスクに依存しない視覚表現を学習し、ステージ2ではオフラインのRLデータ(例: 限られた数の専門家によるデモンストレーション)を使ってタスクに依存しない表現をより強力なタスク固有の表現に変換する。
sparse reward と real visual input を用いた極めて困難なハンド操作タスクのセットでは,従来の sota 法よりも 370%-1200% 高速に学習し,データ駆動型深層強化学習の可能性を完全に実証するエンコーダを用いた。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。