Fugu-MT 論文翻訳(概要): TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

論文の概要: TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

arxiv url: http://arxiv.org/abs/2309.12314v1
Date: Thu, 21 Sep 2023 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 13:38:58.474438
Title: TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance
Title（参考訳）: TinyCLIP:Affinity Mimickingと軽量継承によるCLIP蒸留
Authors: Kan Wu, Houwen Peng, Zhenghong Zhou, Bin Xiao, Mengchen Liu, Lu Yuan, Hong Xuan, Michael Valenzuela, Xi (Stephen) Chen, Xinggang Wang, Hongyang Chao, Han Hu
Abstract要約: 大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。 YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
参考スコア（独自算出の注目度）: 97.01406871579525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a novel cross-modal distillation method, called TinyCLIP, for large-scale language-image pre-trained models. The method introduces two core techniques: affinity mimicking and weight inheritance. Affinity mimicking explores the interaction between modalities during distillation, enabling student models to mimic teachers' behavior of learning cross-modal feature alignment in a visual-linguistic affinity space. Weight inheritance transmits the pre-trained weights from the teacher models to their student counterparts to improve distillation efficiency. Moreover, we extend the method into a multi-stage progressive distillation to mitigate the loss of informative weights during extreme compression. Comprehensive experiments demonstrate the efficacy of TinyCLIP, showing that it can reduce the size of the pre-trained CLIP ViT-B/32 by 50%, while maintaining comparable zero-shot performance. While aiming for comparable performance, distillation with weight inheritance can speed up the training by 1.4 - 7.8 $\times$ compared to training from scratch. Moreover, our TinyCLIP ViT-8M/16, trained on YFCC-15M, achieves an impressive zero-shot top-1 accuracy of 41.1% on ImageNet, surpassing the original CLIP ViT-B/16 by 3.5% while utilizing only 8.9% parameters. Finally, we demonstrate the good transferability of TinyCLIP in various downstream tasks. Code and models will be open-sourced at https://aka.ms/tinyclip.
Abstract（参考訳）: 本稿では,大規模言語画像事前学習モデルのための,TinyCLIPと呼ばれる新しいクロスモーダル蒸留法を提案する。親和性模倣と重み継承という2つのコア技術を導入する。アフィニティ模倣は、蒸留中のモダリティ間の相互作用を探求し、学生モデルが視覚言語的なアフィニティ空間における教師のクロスモーダルな特徴アライメントを模倣することを可能にする。重量継承は、教師モデルから学生モデルに事前訓練した重量を伝達し、蒸留効率を向上させる。さらに,本法を多段階プログレッシブ蒸留に拡張し,極端圧縮時の情報重みの損失を軽減する。総合的な実験では、TinyCLIPの有効性を示し、訓練済みのCLIP ViT-B/32のサイズを50%削減し、同等のゼロショット性能を維持する。同等のパフォーマンスを目指す一方で、重量継承による蒸留は、スクラッチからのトレーニングと比較して1.4～7.8ドルのトレーニングを高速化することができる。さらに、YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を実現し、オリジナルのCLIP ViT-B/16を3.5%上回り、わずか8.9%のパラメータしか利用していない。最後に、様々な下流タスクにおけるTinyCLIPの優れた転送性を示す。コードとモデルはhttps://aka.ms/tinyclip.comでオープンソース化される。

関連論文リスト

TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification [12.558701595138928]
対照的な言語-画像事前訓練は、画像分類において印象的なゼロショット性能を示した。最先端の手法は、しばしばCLIPのパフォーマンスを最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。単段階 LMM Augmented CLIP (SLAC) と2段階 LMM Augmented CLIP (TLAC) を導入した。私たちのモデルは、ImageNet、SUN397、Caltech101を含む11のベース・ツー・ノーベルデータセットのうち9つの精度で達成しました。
論文参考訳（メタデータ） (2025-03-15T17:11:41Z)
CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文参考訳（メタデータ） (2025-02-25T13:09:34Z)
ScaleKD: Strong Vision Transformers Could Be Excellent Teachers [15.446480934024652]
本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
論文参考訳（メタデータ） (2024-11-11T08:25:21Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
CLIP-KD: An Empirical Study of CLIP Model Distillation [24.52910358842176]
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。 Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。教師と生徒のエンコーダ間の対話的コントラスト学習は、性能向上にも有効である。
論文参考訳（メタデータ） (2023-07-24T12:24:07Z)
Layer Grafted Pre-training: Bridging Contrastive Learning And Masked Image Modeling For Label-Efficient Representations [130.05189514598996]
Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
論文参考訳（メタデータ） (2023-02-27T20:52:10Z)
Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文参考訳（メタデータ） (2023-02-01T17:44:17Z)
TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献するしかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文参考訳（メタデータ） (2023-01-03T18:59:54Z)
CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文参考訳（メタデータ） (2022-12-12T18:59:59Z)
Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文参考訳（メタデータ） (2022-08-25T17:58:59Z)
DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文参考訳（メタデータ） (2021-04-19T08:22:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。