論文の概要: An Unbiased Look at Datasets for Visuo-Motor Pre-Training
- arxiv url: http://arxiv.org/abs/2310.09289v1
- Date: Fri, 13 Oct 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 11:41:32.263745
- Title: An Unbiased Look at Datasets for Visuo-Motor Pre-Training
- Title(参考訳): Visuo-Motor プレトレーニングにおけるデータセットの偏見
- Authors: Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta
- Abstract要約: データセットの選択は、このパラダイムの成功と同じくらい重要です。
従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。
シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
- 参考スコア(独自算出の注目度): 20.094244564603184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual representation learning hold great promise for robotics, but is
severely hampered by the scarcity and homogeneity of robotics datasets. Recent
works address this problem by pre-training visual representations on
large-scale but out-of-domain data (e.g., videos of egocentric interactions)
and then transferring them to target robotics tasks. While the field is heavily
focused on developing better pre-training algorithms, we find that dataset
choice is just as important to this paradigm's success. After all, the
representation can only learn the structures or priors present in the
pre-training dataset. To this end, we flip the focus on algorithms, and instead
conduct a dataset centric analysis of robotic pre-training. Our findings call
into question some common wisdom in the field. We observe that traditional
vision datasets (like ImageNet, Kinetics and 100 Days of Hands) are
surprisingly competitive options for visuo-motor representation learning, and
that the pre-training dataset's image distribution matters more than its size.
Finally, we show that common simulation benchmarks are not a reliable proxy for
real world performance and that simple regularization strategies can
dramatically improve real world policy learning.
https://data4robotics.github.io
- Abstract(参考訳): 視覚表現学習はロボティクスに大きな可能性を秘めているが、ロボティクスデータセットの不足と均一性によって著しく妨げられている。
最近の研究は、大規模だが領域外データ(例えば、自我中心の相互作用のビデオ)の視覚表現を事前訓練し、それらをロボットタスクに転送することでこの問題に対処している。
この分野では、より良い事前トレーニングアルゴリズムの開発に重点を置いていますが、データセットの選択は、このパラダイムの成功と同じくらい重要です。
結局、この表現は事前トレーニングされたデータセットに存在する構造やプリエントのみを学習できる。
この目的のために、アルゴリズムに重点を置き、代わりにロボットによる事前学習のデータセット中心の分析を行う。
我々の発見は、この分野で共通の知恵に疑問を呈する。
我々は、従来のビジョンデータセット(ImageNet、Kineetics、100 Days of Handsなど)がヴィジュオモダ表現学習の驚くほど競争力のある選択肢であり、事前学習データセットのイメージ分布がそのサイズよりも重要であることを観察する。
最後に、一般的なシミュレーションベンチマークは実世界のパフォーマンスの信頼性の高いプロキシではなく、単純な正規化戦略が実世界のポリシー学習を劇的に改善できることを示す。
https://data4robotics.github.io
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Supervised and Contrastive Self-Supervised In-Domain Representation
Learning for Dense Prediction Problems in Remote Sensing [0.0]
本稿では、リモートセンシングと画像Netデータセットの領域差を解決するために、教師付きおよび自己教師型両方のドメイン表現の有効性について検討する。
自己教師付き事前学習では,SimSiamアルゴリズムは単純であり,膨大な計算資源を必要としない。
その結果,自己教師付き表現学習に空間分解能の高いデータセットを用いることで,下流タスクの性能が向上することが実証された。
論文 参考訳(メタデータ) (2023-01-29T20:56:51Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。