論文の概要: When Should We Prefer State-to-Visual DAgger Over Visual Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2412.13662v1
- Date: Wed, 18 Dec 2024 09:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:48.688926
- Title: When Should We Prefer State-to-Visual DAgger Over Visual Reinforcement Learning?
- Title(参考訳): ビジュアル強化学習において、状態から視覚へのダガーはいつ優先すべきか?
- Authors: Tongzhou Mu, Zhaoyang Li, Stanisław Wiktor Strzelecki, Xiu Yuan, Yunchao Yao, Litian Liang, Hao Su,
- Abstract要約: 本研究では、2段階のフレームワークであるState-to-Visual DAggerと、視覚的ポリシーを学ぶためにオンライン模倣を採用する前に状態ポリシーを訓練するVisual RLを実証的に比較する。
驚いたことに、ステート・ツー・ビジュアルのDAggerは、Visual RLを普遍的に上回るものではなく、より一貫したパフォーマンスを提供する、挑戦的なタスクにおいて大きなアドバンテージを示している。
- 参考スコア(独自算出の注目度): 19.13734020392486
- License:
- Abstract: Learning policies from high-dimensional visual inputs, such as pixels and point clouds, is crucial in various applications. Visual reinforcement learning is a promising approach that directly trains policies from visual observations, although it faces challenges in sample efficiency and computational costs. This study conducts an empirical comparison of State-to-Visual DAgger, a two-stage framework that initially trains a state policy before adopting online imitation to learn a visual policy, and Visual RL across a diverse set of tasks. We evaluate both methods across 16 tasks from three benchmarks, focusing on their asymptotic performance, sample efficiency, and computational costs. Surprisingly, our findings reveal that State-to-Visual DAgger does not universally outperform Visual RL but shows significant advantages in challenging tasks, offering more consistent performance. In contrast, its benefits in sample efficiency are less pronounced, although it often reduces the overall wall-clock time required for training. Based on our findings, we provide recommendations for practitioners and hope that our results contribute valuable perspectives for future research in visual policy learning.
- Abstract(参考訳): ピクセルや点雲などの高次元視覚入力からの学習ポリシーは、様々なアプリケーションにおいて不可欠である。
ビジュアル強化学習は、視覚的な観察からポリシーを直接訓練する有望なアプローチであるが、サンプル効率と計算コストの課題に直面している。
本研究は,2段階のフレームワークであるState-to-Visual DAggerを実証的に比較した。
両手法を3つのベンチマークから評価し,その漸近的性能,サンプル効率,計算コストに着目した。
驚いたことに、ステート・ツー・ビジュアルのDAggerは、Visual RLを普遍的に上回るものではなく、より一貫したパフォーマンスを提供する、挑戦的なタスクにおいて大きなアドバンテージを示している。
対照的に、サンプル効率の利点はさほど顕著ではないが、トレーニングに必要な壁時計全体の時間を短縮することが多い。
本研究は,視覚政策学習における今後の研究に有用な視点を期待し,実践者への提言を行うものである。
関連論文リスト
- Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - Pretrained Visual Representations in Reinforcement Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-07-24T12:53:26Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning [12.829056201510994]
状態表現学習におけるサンプルの多様性向上のためのアプローチを提案する。
提案手法は,問題状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを向上する。
論文 参考訳(メタデータ) (2021-10-02T11:15:04Z) - Making Curiosity Explicit in Vision-based RL [12.829056201510994]
視覚に基づく強化学習(RL)は、画像を主観察対象とする制御課題を解決するための有望な手法である。
最先端のRLアルゴリズムは、まだサンプル効率の面で苦戦している。
サンプルの多様性を改善するためのアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T09:50:37Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。