論文の概要: The Unsurprising Effectiveness of Pre-Trained Vision Models for Control
- arxiv url: http://arxiv.org/abs/2203.03580v1
- Date: Mon, 7 Mar 2022 18:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:38:41.528932
- Title: The Unsurprising Effectiveness of Pre-Trained Vision Models for Control
- Title(参考訳): 事前学習型視覚モデルによる制御の有効性について
- Authors: Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, Abhinav Gupta
- Abstract要約: 本研究では、制御のための事前学習された視覚表現の役割、特に大規模コンピュータビジョンデータセットで訓練された視覚表現について検討する。
事前学習された視覚表現は、制御ポリシーを訓練する上で、地道な状態表現よりも競争力があるか、さらに優れていることが分かりました。
- 参考スコア(独自算出の注目度): 33.30717429522186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen the emergence of pre-trained representations as a
powerful abstraction for AI applications in computer vision, natural language,
and speech. However, policy learning for control is still dominated by a
tabula-rasa learning paradigm, with visuo-motor policies often trained from
scratch using data from deployment environments. In this context, we revisit
and study the role of pre-trained visual representations for control, and in
particular representations trained on large-scale computer vision datasets.
Through extensive empirical evaluation in diverse control domains (Habitat,
DeepMind Control, Adroit, Franka Kitchen), we isolate and study the importance
of different representation training methods, data augmentations, and feature
hierarchies. Overall, we find that pre-trained visual representations can be
competitive or even better than ground-truth state representations to train
control policies. This is in spite of using only out-of-domain data from
standard vision datasets, without any in-domain data from the deployment
environments. Additional details and source code is available at
https://sites.google.com/view/pvr-control
- Abstract(参考訳): 近年、コンピュータビジョン、自然言語、音声におけるAIアプリケーションのための強力な抽象化として、事前訓練された表現が出現している。
しかし、制御のためのポリシー学習は依然としてタブララサ学習パラダイムに支配されており、visuo-motorポリシーはしばしばデプロイ環境のデータを使用してスクラッチからトレーニングされる。
この文脈では、制御のための事前訓練された視覚表現、特に大規模コンピュータビジョンデータセットで訓練された表現の役割を再検討し、研究する。
多様なコントロールドメイン(habitat, deepmind control, adroit, franka kitchen)における広範な経験的評価を通じて,異なる表現訓練方法,データ拡張,特徴階層の重要性を分離し,検討した。
全体として、事前訓練された視覚的表現は、制御ポリシーをトレーニングする上で、接地状態表現よりも競争力があるか、あるいは優れていることが分かりました。
これは標準ビジョンデータセットからのドメイン外データのみを使用してはいるが、デプロイメント環境からのドメイン内データはない。
詳細とソースコードはhttps://sites.google.com/view/pvr-controlで確認できる。
関連論文リスト
- DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Pretrained Encoders are All You Need [23.171881382391074]
自己監督型モデルでは、さまざまな設定への転送が成功している。
また、自己教師付き技術を用いた微調整事前学習表現についても検討する。
その結果、事前学習された表現は、ドメイン固有データに基づいて訓練された最先端の自己管理手法と同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-09T15:27:25Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。