論文の概要: Label-efficient Training of Small Task-specific Models by Leveraging
Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2311.18237v1
- Date: Thu, 30 Nov 2023 04:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:06:12.981213
- Title: Label-efficient Training of Small Task-specific Models by Leveraging
Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルを活用した小課題特化モデルのラベル効率トレーニング
- Authors: Raviteja Vemulapalli, Hadi Pouransari, Fartash Faghri, Sachin Mehta,
Mehrdad Farajtabar, Mohammad Rastegari, Oncel Tuzel
- Abstract要約: 大規模なデータセットに事前訓練された大規模ビジョンファウンデーションモデル(VFM)は、さまざまな下流タスクで素晴らしいパフォーマンスを示す。
高いメモリと計算要求のため、これらのモデルはリソース制約のある設定ではデプロイできない。
そこで本研究では,タスク特化モデルの効果的なトレーニングに,事前学習型VFMを活用するための,シンプルで効果的なタスク指向知識伝達手法を提案する。
- 参考スコア(独自算出の注目度): 43.36284492666236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Foundation Models (VFMs) pretrained on massive datasets exhibit
impressive performance on various downstream tasks, especially with limited
labeled target data. However, due to their high memory and compute
requirements, these models cannot be deployed in resource constrained settings.
This raises an important question: How can we utilize the knowledge from a
large VFM to train a small task-specific model for a new target task with
limited labeled training data? In this work, we answer this question by
proposing a simple and highly effective task-oriented knowledge transfer
approach to leverage pretrained VFMs for effective training of small
task-specific models. Our experimental results on four target tasks under
limited labeled data settings show that the proposed knowledge transfer
approach outperforms task-agnostic VFM distillation, web-scale CLIP pretraining
and supervised ImageNet pretraining by 1-10.5%, 2-22% and 2-14%, respectively.
We also show that the dataset used for transferring knowledge has a significant
effect on the final target task performance, and propose an image
retrieval-based approach for curating effective transfer sets.
- Abstract(参考訳): 大規模なデータセットで事前トレーニングされた large vision foundation model (vfms) は、さまざまな下流タスク、特にラベル付きターゲットデータで印象的なパフォーマンスを示す。
しかし、高いメモリと計算要求のため、これらのモデルはリソース制約のある設定ではデプロイできない。
ラベル付きトレーニングデータに制限のある、新しいターゲットタスクのための小さなタスク固有のモデルをトレーニングするために、大規模なvfmからの知識をどのように活用すればよいのか?
本稿では,事前学習されたvfmsを活用し,小型タスク固有モデルの効果的なトレーニングを行うための,単純かつ高効率なタスク指向知識伝達手法を提案する。
限定ラベル付きデータ設定下での4つの目標タスクに対する実験結果から,提案手法はタスク非依存のVFM蒸留,WebスケールのCLIP事前学習,ImageNet事前学習をそれぞれ1-10.5%,2-22%,2-14%で上回った。
また,知識伝達に使用されるデータセットが最終目標タスク性能に有意な影響を与えることを示し,効果的な転送集合をキュレートするための画像検索に基づくアプローチを提案する。
関連論文リスト
- How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Understanding new tasks through the lens of training data via
exponential tilting [43.33775132139584]
対象タスクの分布を把握するために,トレーニングサンプルを再検討する問題を考察する。
指数的傾き仮定に基づいて分布シフトモデルを定式化し、列車データ重み付けを学習する。
学習したトレインデータの重み付けは、目標のパフォーマンス評価、微調整、モデル選択といった下流タスクに使用できる。
論文 参考訳(メタデータ) (2022-05-26T18:38:43Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。