論文の概要: Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2304.06600v1
- Date: Thu, 13 Apr 2023 15:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 13:57:44.568579
- Title: Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための事前学習型視覚モデルのロスレス適応
- Authors: Mohit Sharma, Claudio Fantacci, Yuxiang Zhou, Skanda Koppula, Nicolas
Heess, Jon Scholz, Yusuf Aytar
- Abstract要約: 一般的な視覚学習タスクで事前訓練された大規模なモデルは、幅広い特殊認識問題に対して有用な表現を提供することができる。
古典的な微調整のこの欠点に対処するために、"ロスレス適応"を導入する。
パラメータ効率の良いアダプタの適切な配置は、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減できることを示す。
- 参考スコア(独自算出の注目度): 25.47207030637466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that large models pretrained on common visual
learning tasks can provide useful representations for a wide range of
specialized perception problems, as well as a variety of robotic manipulation
tasks. While prior work on robotic manipulation has predominantly used frozen
pretrained features, we demonstrate that in robotics this approach can fail to
reach optimal performance, and that fine-tuning of the full model can lead to
significantly better results. Unfortunately, fine-tuning disrupts the
pretrained visual representation, and causes representational drift towards the
fine-tuned task thus leading to a loss of the versatility of the original
model. We introduce "lossless adaptation" to address this shortcoming of
classical fine-tuning. We demonstrate that appropriate placement of our
parameter efficient adapters can significantly reduce the performance gap
between frozen pretrained representations and full end-to-end fine-tuning
without changes to the original representation and thus preserving original
capabilities of the pretrained model. We perform a comprehensive investigation
across three major model architectures (ViTs, NFNets, and ResNets), supervised
(ImageNet-1K classification) and self-supervised pretrained weights (CLIP,
BYOL, Visual MAE) in 3 task domains and 35 individual tasks, and demonstrate
that our claims are strongly validated in various settings.
- Abstract(参考訳): 近年の研究では、一般的な視覚学習タスクで事前訓練された大きなモデルが、様々な特殊認識問題や様々なロボット操作タスクに有用な表現を提供することが示されている。
ロボット操作の先行研究は、主に凍結した事前学習機能を使用してきたが、ロボット工学では、このアプローチは最適な性能には達せず、モデル全体の微調整がはるかに優れた結果をもたらす可能性があることを実証する。
残念ながら、微調整は事前訓練された視覚表現を妨害し、微調整されたタスクへの表現的ドリフトを引き起こすため、元のモデルの汎用性が失われる。
我々は,この古典的な微調整の欠点に対処するために,"lossless adaptation"を導入する。
パラメータ効率の良いアダプタの適切な配置は、元の表現を変更することなく、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減し、事前訓練されたモデルの本来の機能を維持することを実証する。
我々は3つの主要なモデルアーキテクチャ(ViT、NFNet、ResNets)、教師付き(ImageNet-1K分類)、3つのタスクドメインと35の個別タスクにおける自己教師付き事前訓練重み(CLIP、BYOL、Visual MAE)を包括的に調査し、我々の主張が様々な設定で強く検証されていることを示す。
関連論文リスト
- ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning [2.8388425545775386]
我々は,ポイントクラウド入力からの視覚ロボット操作のための終端SE(3)-同変モデルを提案する。
我々のモデルは、事前の知識がなくてもゼロから学習できることを示します。
論文 参考訳(メタデータ) (2022-06-16T17:26:06Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。