Fugu-MT 論文翻訳(概要): ScaleKD: Strong Vision Transformers Could Be Excellent Teachers

論文の概要: ScaleKD: Strong Vision Transformers Could Be Excellent Teachers

arxiv url: http://arxiv.org/abs/2411.06786v1
Date: Mon, 11 Nov 2024 08:25:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.390606
Title: ScaleKD: Strong Vision Transformers Could Be Excellent Teachers
Title（参考訳）: ScaleKD:強力な視覚変換器は優れた教師になるかもしれない
Authors: Jiawei Fan, Chao Li, Xiaolong Liu, Anbang Yao,
Abstract要約: 本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
参考スコア（独自算出の注目度）: 15.446480934024652
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we question if well pre-trained vision transformer (ViT) models could be used as teachers that exhibit scalable properties to advance cross architecture knowledge distillation (KD) research, in the context of using large-scale datasets for evaluation. To make this possible, our analysis underlines the importance of seeking effective strategies to align (1) feature computing paradigm differences, (2) model scale differences, and (3) knowledge density differences. By combining three coupled components namely cross attention projector, dual-view feature mimicking and teacher parameter perception tailored to address the above problems, we present a simple and effective KD method, called ScaleKD. Our method can train student backbones that span across a variety of convolutional neural network (CNN), multi-layer perceptron (MLP), and ViT architectures on image classification datasets, achieving state-of-the-art distillation performance. For instance, taking a well pre-trained Swin-L as the teacher model, our method gets 75.15%|82.03%|84.16%|78.63%|81.96%|83.93%|83.80%|85.53% top-1 accuracies for MobileNet-V1|ResNet-50|ConvNeXt-T|Mixer-S/16|Mixer-B/16|ViT-S/16|Swin-T|ViT-B/16 models trained on ImageNet-1K dataset from scratch, showing 3.05%|3.39%|2.02%|4.61%|5.52%|4.03%|2.62%|3.73% absolute gains to the individually trained counterparts. Intriguingly, when scaling up the size of teacher models or their pre-training datasets, our method showcases the desired scalable properties, bringing increasingly larger gains to student models. The student backbones trained by our method transfer well on downstream MS-COCO and ADE20K datasets. More importantly, our method could be used as a more efficient alternative to the time-intensive pre-training paradigm for any target student model if a strong pre-trained ViT is available, reducing the amount of viewed training samples up to 195x.
Abstract（参考訳）: 本稿では, 大規模データセットを用いた評価において, クロスアーキテクチャ知識蒸留(KD)研究を進めるために, スケーラブルな特性を示す教師として, 事前学習型視覚トランスフォーマー(ViT)モデルが利用できるかどうかを疑問視する。そこで本研究では,(1)特徴計算パラダイムの相違,(2)モデルスケールの相違,(3)知識密度の相違について,効果的な戦略を求めることの重要性を考察する。上記の課題に対処するために, クロスアテンションプロジェクタ, デュアルビュー機能模倣, 教師パラメータ認識という3つの複合コンポーネントを組み合わせることで, 簡易かつ効果的なKD手法であるScaleKDを提案する。提案手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練し,最先端の蒸留性能を実現する。例えば、教師モデルとしてよく訓練されたSwin-Lを例に挙げると、我々の手法は75.15%|82.03%|84.16%|78.63%|81.96%|83.93%|83.80%|85.53% top-1 accuracies for MobileNet-V1|ResNet-50|ConvNeXt-T|Mixer-S/16|Mixer-B/16|ViT-S/16|Swin-T|ViT-B/16|Swin-T|ViT-B/16モデルのスクラッチから3.05%|3.39%|2.02%|4.61%|4.03%|2.63%|3.3%となる。興味深いことに、教師モデルやその事前学習データセットのサイズをスケールアップする際、我々の方法は望まれるスケーラブルな特性を示し、学生モデルにますます大きな利益をもたらす。方法によって訓練された学生のバックボーンは、下流のMS-COCOとADE20Kデータセットでよく転送される。さらに,本手法は,強い事前学習型ViTが利用可能であれば,任意の学生モデルに対する時間集中型事前学習のパラダイムの代替として,より効率的な方法として利用することができる。

関連論文リスト

An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-06T14:44:34Z)
TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。 YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文参考訳（メタデータ） (2023-09-21T17:59:53Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
A Simple and Generic Framework for Feature Distillation via Channel-wise Transformation [35.233203757760066]
学習可能な非線形チャネルワイズ変換を提案し,教師モデルと生徒の特徴を一致させる。本手法は,様々なコンピュータビジョンタスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2023-03-23T12:13:29Z)
Transferring Pre-trained Multimodal Representations with Cross-modal Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文参考訳（メタデータ） (2023-01-07T17:24:11Z)
TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献するしかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文参考訳（メタデータ） (2023-01-03T18:59:54Z)
Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文参考訳（メタデータ） (2022-08-25T17:58:59Z)
Efficient Self-supervised Vision Transformers for Representation Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文参考訳（メタデータ） (2021-06-17T19:57:33Z)
Beyond Self-Supervision: A Simple Yet Effective Network Distillation Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文参考訳（メタデータ） (2021-03-10T09:32:44Z)
SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文参考訳（メタデータ） (2021-01-12T20:04:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。