論文の概要: Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling
- arxiv url: http://arxiv.org/abs/2309.09571v1
- Date: Mon, 18 Sep 2023 08:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:20:36.702137
- Title: Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling
- Title(参考訳): マスク画像モデルによる異種生成的知識蒸留
- Authors: Ziming Wang, Shumin Han, Xiaodi Wang, Jing Hao, Xianbin Cao, Baochang
Zhang
- Abstract要約: Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
- 参考スコア(独自算出の注目度): 33.95780732124864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small CNN-based models usually require transferring knowledge from a large
model before they are deployed in computationally resource-limited edge
devices. Masked image modeling (MIM) methods achieve great success in various
visual tasks but remain largely unexplored in knowledge distillation for
heterogeneous deep models. The reason is mainly due to the significant
discrepancy between the Transformer-based large model and the CNN-based small
network. In this paper, we develop the first Heterogeneous Generative Knowledge
Distillation (H-GKD) based on MIM, which can efficiently transfer knowledge
from large Transformer models to small CNN-based models in a generative
self-supervised fashion. Our method builds a bridge between Transformer-based
models and CNNs by training a UNet-style student with sparse convolution, which
can effectively mimic the visual representation inferred by a teacher over
masked modeling. Our method is a simple yet effective learning paradigm to
learn the visual representation and distribution of data from heterogeneous
teacher models, which can be pre-trained using advanced generative methods.
Extensive experiments show that it adapts well to various models and sizes,
consistently achieving state-of-the-art performance in image classification,
object detection, and semantic segmentation tasks. For example, in the Imagenet
1K dataset, H-GKD improves the accuracy of Resnet50 (sparse) from 76.98% to
80.01%.
- Abstract(参考訳): 小さいCNNベースのモデルでは、計算資源に制限のあるエッジデバイスにデプロイする前に、大きなモデルから知識を転送する必要がある。
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
この理由は、主にトランスフォーマーベースの大型モデルとcnnベースの小型ネットワークの大きな違いが原因である。
本稿では,大形トランスフォーマーモデルから小型cnnモデルへの知識を,生成的自己教師付方式で効率的に伝達できるmimに基づく,最初の異種生成知識蒸留法(h-gkd)を開発した。
本研究では,トランスフォーマーモデルとCNN間の橋渡しを行い,教師がマスク付きモデルを用いて推定した視覚表現を効果的に模倣する。
本手法は,先進的な生成手法を用いて事前学習可能な異種教師モデルから,データの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
大規模な実験では、様々なモデルやサイズに順応し、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおける最先端のパフォーマンスを一貫して達成している。
例えば、Imagenet 1Kデータセットでは、H-GKDはResnet50(スパース)の精度を76.98%から80.01%に改善している。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。