Fugu-MT 論文翻訳(概要): An Unbiased Look at Datasets for Visuo-Motor Pre-Training

論文の概要: An Unbiased Look at Datasets for Visuo-Motor Pre-Training

arxiv url: http://arxiv.org/abs/2310.09289v1
Date: Fri, 13 Oct 2023 17:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 11:41:32.263745
Title: An Unbiased Look at Datasets for Visuo-Motor Pre-Training
Title（参考訳）: Visuo-Motor プレトレーニングにおけるデータセットの偏見
Authors: Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta
Abstract要約: データセットの選択は、このパラダイムの成功と同じくらい重要です。従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
参考スコア（独自算出の注目度）: 20.094244564603184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual representation learning hold great promise for robotics, but is severely hampered by the scarcity and homogeneity of robotics datasets. Recent works address this problem by pre-training visual representations on large-scale but out-of-domain data (e.g., videos of egocentric interactions) and then transferring them to target robotics tasks. While the field is heavily focused on developing better pre-training algorithms, we find that dataset choice is just as important to this paradigm's success. After all, the representation can only learn the structures or priors present in the pre-training dataset. To this end, we flip the focus on algorithms, and instead conduct a dataset centric analysis of robotic pre-training. Our findings call into question some common wisdom in the field. We observe that traditional vision datasets (like ImageNet, Kinetics and 100 Days of Hands) are surprisingly competitive options for visuo-motor representation learning, and that the pre-training dataset's image distribution matters more than its size. Finally, we show that common simulation benchmarks are not a reliable proxy for real world performance and that simple regularization strategies can dramatically improve real world policy learning. https://data4robotics.github.io
Abstract（参考訳）: 視覚表現学習はロボティクスに大きな可能性を秘めているが、ロボティクスデータセットの不足と均一性によって著しく妨げられている。最近の研究は、大規模だが領域外データ(例えば、自我中心の相互作用のビデオ)の視覚表現を事前訓練し、それらをロボットタスクに転送することでこの問題に対処している。この分野では、より良い事前トレーニングアルゴリズムの開発に重点を置いていますが、データセットの選択は、このパラダイムの成功と同じくらい重要です。結局、この表現は事前トレーニングされたデータセットに存在する構造やプリエントのみを学習できる。この目的のために、アルゴリズムに重点を置き、代わりにロボットによる事前学習のデータセット中心の分析を行う。我々の発見は、この分野で共通の知恵に疑問を呈する。我々は、従来のビジョンデータセット(ImageNet、Kineetics、100 Days of Handsなど)がヴィジュオモダ表現学習の驚くほど競争力のある選択肢であり、事前学習データセットのイメージ分布がそのサイズよりも重要であることを観察する。最後に、一般的なシミュレーションベンチマークは実世界のパフォーマンスの信頼性の高いプロキシではなく、単純な正規化戦略が実世界のポリシー学習を劇的に改善できることを示す。 https://data4robotics.github.io

関連論文リスト

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文参考訳（メタデータ） (2024-10-29T17:58:13Z)
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。 52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。 HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文参考訳（メタデータ） (2024-09-30T17:39:41Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文参考訳（メタデータ） (2022-10-19T22:26:12Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文参考訳（メタデータ） (2021-11-15T18:37:43Z)
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文参考訳（メタデータ） (2020-10-27T17:57:29Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。