論文の概要: What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation?
- arxiv url: http://arxiv.org/abs/2312.12444v1
- Date: Fri, 3 Nov 2023 18:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:12:47.018209
- Title: What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation?
- Title(参考訳): ロバスト操作で事前訓練された視覚表現が成功する理由
- Authors: Kaylee Burns, Zach Witzel, Jubayer Ibn Hamid, Tianhe Yu, Chelsea Finn,
Karol Hausman
- Abstract要約: 照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
- 参考スコア(独自算出の注目度): 57.92924256181857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the success of transfer learning in computer vision, roboticists
have investigated visual pre-training as a means to improve the learning
efficiency and generalization ability of policies learned from pixels. To that
end, past work has favored large object interaction datasets, such as
first-person videos of humans completing diverse tasks, in pursuit of
manipulation-relevant features. Although this approach improves the efficiency
of policy learning, it remains unclear how reliable these representations are
in the presence of distribution shifts that arise commonly in robotic
applications. Surprisingly, we find that visual representations designed for
manipulation and control tasks do not necessarily generalize under subtle
changes in lighting and scene texture or the introduction of distractor
objects. To understand what properties do lead to robust representations, we
compare the performance of 15 pre-trained vision models under different visual
appearances. We find that emergent segmentation ability is a strong predictor
of out-of-distribution generalization among ViT models. The rank order induced
by this metric is more predictive than metrics that have previously guided
generalization research within computer vision and machine learning, such as
downstream ImageNet accuracy, in-domain accuracy, or shape-bias as evaluated by
cue-conflict performance. We test this finding extensively on a suite of
distribution shifts in ten tasks across two simulated manipulation
environments. On the ALOHA setup, segmentation score predicts real-world
performance after offline training with 50 demonstrations.
- Abstract(参考訳): コンピュータビジョンにおける伝達学習の成功に触発されたロボティクスは、画素から学んだポリシーの学習効率と一般化能力を改善する手段として、視覚前訓練を調査してきた。
その目的のために、過去の研究は、操作に関連する特徴を追求するために、人間のタスクを完了した1人称ビデオのような大きなオブジェクトインタラクションデータセットを好んだ。
このアプローチはポリシー学習の効率を向上するが、ロボットアプリケーションで一般的に発生する分散シフトの存在下で、これらの表現がどの程度信頼性が高いかは定かではない。
意外なことに、作業の操作や制御のために設計された視覚表現は、照明やシーンテクスチャの微妙な変化や、イントラクタオブジェクトの導入によって必ずしも一般化されない。
特徴がロバストな表現につながるかを理解するために、15の事前学習された視覚モデルの性能を比較した。
創発的セグメンテーション能力は,vitモデル間の分散一般化の強い予測因子であることがわかった。
この指標によって誘導されるランクオーダーは、以前コンピュータビジョンや機械学習における一般化研究、例えば下流画像ネットの精度、ドメイン内精度、あるいはクエコンフリクトのパフォーマンスによって評価された形状バイアスを導いたメトリクスよりも予測的である。
2つのシミュレートされた操作環境における10タスクの分散シフトのスイートで、この発見を広範囲にテストした。
ALOHA設定では、セグメンテーションスコアは50のデモでオフライントレーニング後の実世界のパフォーマンスを予測する。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - CIPER: Combining Invariant and Equivariant Representations Using
Contrastive and Predictive Learning [6.117084972237769]
比較不変性と予測同変表現学習(CIPER)を導入する。
CIPERは、1つの共有エンコーダとエンコーダの上の2つの異なる出力ヘッドを用いて、不変および同変学習目的を含む。
我々は静的な画像タスクと時間拡張された画像データセットについて評価する。
論文 参考訳(メタデータ) (2023-02-05T07:50:46Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Learning to See before Learning to Act: Visual Pre-training for
Manipulation [48.731528716324355]
視覚タスクの事前学習は、物体を操作するための学習の一般化とサンプル効率を大幅に向上させる。
本稿では,モデルパラメータを視覚ネットワークからアベイランス予測ネットワークへ直接転送することで,ゼロショット適応が成功することを示す。
ほんの少しのロボット経験があれば、より優れた結果を得るために、余分なモデルをさらに微調整できる。
論文 参考訳(メタデータ) (2021-07-01T17:58:37Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。