論文の概要: Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data
- arxiv url: http://arxiv.org/abs/2404.16637v1
- Date: Thu, 25 Apr 2024 14:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:30:22.132772
- Title: Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data
- Title(参考訳): 画像エンコーダのゼロショット蒸留 : 合成データの有効利用法
- Authors: Niclas Popp, Jan Hendrik Metzen, Matthias Hein,
- Abstract要約: 我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
- 参考スコア(独自算出の注目度): 40.37396692278567
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-modal foundation models such as CLIP have showcased impressive zero-shot capabilities. However, their applicability in resource-constrained environments is limited due to their large number of parameters and high inference time. While existing approaches have scaled down the entire CLIP architecture, we focus on training smaller variants of the image encoder, which suffices for efficient zero-shot classification. The use of synthetic data has shown promise in distilling representations from larger teachers, resulting in strong few-shot and linear probe performance. However, we find that this approach surprisingly fails in true zero-shot settings when using contrastive losses. We identify the exploitation of spurious features as being responsible for poor generalization between synthetic and real data. However, by using the image feature-based L2 distillation loss, we mitigate these problems and train students that achieve zero-shot performance which on four domain-specific datasets is on-par with a ViT-B/32 teacher model trained on DataCompXL, while featuring up to 92% fewer parameters.
- Abstract(参考訳): CLIPのようなマルチモーダル基盤モデルは、印象的なゼロショット機能を示した。
しかし,資源制約環境における適用性は,多数のパラメータと高い推論時間により制限されている。
既存のアプローチではCLIPアーキテクチャ全体をスケールダウンしていますが、画像エンコーダの小さな変種をトレーニングすることに重点を置いています。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
しかし、対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
本研究では, 合成データと実データ間の一般化が不十分な原因として, 突発的特徴の活用について検討する。
しかし、画像特徴量に基づくL2蒸留損失を用いることで、これらの問題を緩和し、4つのドメイン固有のデータセットにおいて、最大92%のパラメータを特徴としながら、DataCompXLで訓練されたViT-B/32教師モデルと同等であるゼロショット性能を達成する学生を訓練する。
関連論文リスト
- Data-Efficient Generation for Dataset Distillation [12.106527496044473]
ラベル付きリアルな合成画像を生成する条件付き潜時拡散モデルを訓練する。
我々は,少数の合成画像のみを用いてモデルを効果的に訓練し,大規模な実検体で評価できることを実証した。
論文 参考訳(メタデータ) (2024-09-05T22:31:53Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Tensor feature hallucination for few-shot learning [17.381648488344222]
限られた監督と限られたデータによって、サンプルを分類するという課題に対処するショットは少ない。
数ショット分類のための合成データ生成に関するこれまでの研究は、複雑なモデルを活用することに重点を置いていた。
本稿では,単純かつ簡単な合成データ生成手法を効果的に利用する方法を検討する。
論文 参考訳(メタデータ) (2021-06-09T18:25:08Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z) - Supervised Contrastive Learning [42.27949000093086]
我々は、自己教師付きバッチコントラストアプローチを完全教師付き設定に拡張する。
教師付きコントラスト(SupCon)損失の2つの可能なバージョンを分析し,損失の最も優れた定式化を同定した。
ResNet-200では、ImageNetデータセットでトップ1の精度が81.4%に達しています。
論文 参考訳(メタデータ) (2020-04-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。