論文の概要: Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models
- arxiv url: http://arxiv.org/abs/2311.18237v3
- Date: Tue, 2 Jul 2024 00:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 08:09:56.664523
- Title: Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models
- Title(参考訳): 小課題特化モデルの効率的な訓練のためのビジョン基礎モデルからの知識伝達
- Authors: Raviteja Vemulapalli, Hadi Pouransari, Fartash Faghri, Sachin Mehta, Mehrdad Farajtabar, Mohammad Rastegari, Oncel Tuzel,
- Abstract要約: 大量のデータセットに事前訓練されたビジョンファウンデーションモデル(VFM)は、さまざまな下流タスクで素晴らしいパフォーマンスを示す。
高い推論計算コストのため、これらのモデルは現実世界の多くのアプリケーションにデプロイすることはできない。
本稿では,課題指向の知識伝達手法を提案する。
- 参考スコア(独自算出の注目度): 41.292216950622084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) pretrained on massive datasets exhibit impressive performance on various downstream tasks, especially with limited labeled target data. However, due to their high inference compute cost, these models cannot be deployed for many real-world applications. Motivated by this, we ask the following important question, "How can we leverage the knowledge from a large VFM to train a small task-specific model for a new target task with limited labeled training data?", and propose a simple task-oriented knowledge transfer approach as a highly effective solution to this problem. Our experimental results on five target tasks show that the proposed approach outperforms task-agnostic VFM distillation, web-scale CLIP pretraining, supervised ImageNet pretraining, and self-supervised DINO pretraining by up to 11.6%, 22.1%, 13.7%, and 29.8%, respectively. Furthermore, the proposed approach also demonstrates up to 9x, 4x and 15x reduction in pretraining compute cost when compared to task-agnostic VFM distillation, ImageNet pretraining and DINO pretraining, respectively, while outperforming them. We also show that the dataset used for transferring knowledge has a significant effect on the final target task performance, and introduce a retrieval-augmented knowledge transfer strategy that uses web-scale image retrieval to curate effective transfer sets.
- Abstract(参考訳): 大規模なデータセットに事前訓練されたビジョンファウンデーションモデル(VFM)は、特にラベル付きターゲットデータに制限のある、さまざまな下流タスクで素晴らしいパフォーマンスを示す。
しかし、高い推論計算コストのため、これらのモデルは現実世界の多くのアプリケーションにデプロイすることはできない。
そこで我々は,「大規模VFMからの知識を利用して,限定ラベル付きトレーニングデータを用いた目標タスクの小さなタスク特化モデルをトレーニングするにはどうすればよいのか?」という重要な疑問を提起し,この問題に対して,簡単なタスク指向の知識伝達アプローチを提案する。
5つの課題を対象とした実験の結果,提案手法はタスク非依存のVFM蒸留,WebスケールのCLIPプレトレーニング,イメージネットプレトレーニング,DINOプレトレーニングを最大11.6%,22.1%,13.7%,29.8%で上回った。
さらに,提案手法は,タスクに依存しないVFM蒸留,ImageNetプレトレーニング,DINOプレトレーニングと比較して,最大9倍,4倍,および15倍の事前トレーニング計算コストを削減できることを示した。
また,知識の伝達に使用されるデータセットが最終目標タスクのパフォーマンスに重要な影響を与えることを示し,Webスケールの画像検索による効果的な伝達セットの算出を行う検索強化された知識伝達戦略を提案する。
関連論文リスト
- How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Understanding new tasks through the lens of training data via
exponential tilting [43.33775132139584]
対象タスクの分布を把握するために,トレーニングサンプルを再検討する問題を考察する。
指数的傾き仮定に基づいて分布シフトモデルを定式化し、列車データ重み付けを学習する。
学習したトレインデータの重み付けは、目標のパフォーマンス評価、微調整、モデル選択といった下流タスクに使用できる。
論文 参考訳(メタデータ) (2022-05-26T18:38:43Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。