論文の概要: DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors
- arxiv url: http://arxiv.org/abs/2409.18330v1
- Date: Thu, 26 Sep 2024 23:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 07:00:37.281892
- Title: DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors
- Title(参考訳): DMC-VB:ビジュアルディトラクタを用いた制御のための表現学習ベンチマーク
- Authors: Joseph Ortiz, Antoine Dedieu, Wolfgang Lehrach, Swaroop Guntupalli, Carter Wendelken, Ahmad Humayun, Guangyao Zhou, Sivaramakrishnan Swaminathan, Miguel Lázaro-Gredilla, Kevin Murphy,
- Abstract要約: 行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
- 参考スコア(独自算出の注目度): 13.700885996266457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from previously collected data via behavioral cloning or offline reinforcement learning (RL) is a powerful recipe for scaling generalist agents by avoiding the need for expensive online learning. Despite strong generalization in some respects, agents are often remarkably brittle to minor visual variations in control-irrelevant factors such as the background or camera viewpoint. In this paper, we present theDeepMind Control Visual Benchmark (DMC-VB), a dataset collected in the DeepMind Control Suite to evaluate the robustness of offline RL agents for solving continuous control tasks from visual input in the presence of visual distractors. In contrast to prior works, our dataset (a) combines locomotion and navigation tasks of varying difficulties, (b) includes static and dynamic visual variations, (c) considers data generated by policies with different skill levels, (d) systematically returns pairs of state and pixel observation, (e) is an order of magnitude larger, and (f) includes tasks with hidden goals. Accompanying our dataset, we propose three benchmarks to evaluate representation learning methods for pretraining, and carry out experiments on several recently proposed methods. First, we find that pretrained representations do not help policy learning on DMC-VB, and we highlight a large representation gap between policies learned on pixel observations and on states. Second, we demonstrate when expert data is limited, policy learning can benefit from representations pretrained on (a) suboptimal data, and (b) tasks with stochastic hidden goals. Our dataset and benchmark code to train and evaluate agents are available at: https://github.com/google-deepmind/dmc_vision_benchmark.
- Abstract(参考訳): 行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学ぶことは、高価なオンライン学習の必要性を回避し、ジェネラリストエージェントをスケールするための強力なレシピである。
いくつかの点において強い一般化にもかかわらず、エージェントは背景やカメラの視点のような制御非関連要素の微妙な視覚的変化に対して著しく脆弱であることが多い。
本稿では,DeepMind Control Visual Benchmark (DMC-VB)を提案する。このデータセットはDeepMind Control Suiteで収集され,視覚的邪魔者の存在下での視覚入力から連続制御タスクを解くためのオフラインRLエージェントの堅牢性を評価する。
以前の作業とは対照的に、私たちのデータセットは
(a)難易度の異なる移動と航法作業を組み合わせたもの。
(b)静的および動的視覚変化を含む。
(c)異なるスキルレベルを持つポリシーによって生成されたデータを考える。
(d)状態と画素観察のペアを体系的に返す。
e)は桁違いに大きく、
(f) 隠れた目標を持つタスクを含む。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
まず、事前訓練された表現は、DMC-VBのポリシー学習に役立ちません。
第2に、専門家データが制限されている場合、ポリシー学習は事前訓練された表現の恩恵を受けることができることを示す。
(a)準最適データ、及び
(b)確率的隠れ目標を伴うタスク。
エージェントをトレーニングし、評価するためのデータセットとベンチマークコードは、https://github.com/google-deepmind/dmc_vision_benchmarkで利用可能です。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - The Unsurprising Effectiveness of Pre-Trained Vision Models for Control [33.30717429522186]
本研究では、制御のための事前学習された視覚表現の役割、特に大規模コンピュータビジョンデータセットで訓練された視覚表現について検討する。
事前学習された視覚表現は、制御ポリシーを訓練する上で、地道な状態表現よりも競争力があるか、さらに優れていることが分かりました。
論文 参考訳(メタデータ) (2022-03-07T18:26:14Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。