論文の概要: Knowledge Distillation in Vision Transformers: A Critical Review
- arxiv url: http://arxiv.org/abs/2302.02108v2
- Date: Sat, 10 Feb 2024 11:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:15:31.224590
- Title: Knowledge Distillation in Vision Transformers: A Critical Review
- Title(参考訳): 視覚トランスフォーマーにおける知識蒸留 : 批判的レビュー
- Authors: Gousia Habib, Tausifa Jan Saleem, Brejesh Lall
- Abstract要約: ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
- 参考スコア(独自算出の注目度): 6.508088032296086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Natural Language Processing (NLP), Transformers have already
revolutionized the field by utilizing an attention-based encoder-decoder model.
Recently, some pioneering works have employed Transformer-like architectures in
Computer Vision (CV) and they have reported outstanding performance of these
architectures in tasks such as image classification, object detection, and
semantic segmentation. Vision Transformers (ViTs) have demonstrated impressive
performance improvements over Convolutional Neural Networks (CNNs) due to their
competitive modelling capabilities. However, these architectures demand massive
computational resources which makes these models difficult to be deployed in
the resource-constrained applications. Many solutions have been developed to
combat this issue, such as compressive transformers and compression functions
such as dilated convolution, min-max pooling, 1D convolution, etc. Model
compression has recently attracted considerable research attention as a
potential remedy. A number of model compression methods have been proposed in
the literature such as weight quantization, weight multiplexing, pruning and
Knowledge Distillation (KD). However, techniques like weight quantization,
pruning and weight multiplexing typically involve complex pipelines for
performing the compression. KD has been found to be a simple and much effective
model compression technique that allows a relatively simple model to perform
tasks almost as accurately as a complex model. This paper discusses various
approaches based upon KD for effective compression of ViT models. The paper
elucidates the role played by KD in reducing the computational and memory
requirements of these models. The paper also presents the various challenges
faced by ViTs that are yet to be resolved.
- Abstract(参考訳): 自然言語処理(nlp)では、トランスフォーマーはすでに注意に基づくエンコーダ・デコーダモデルを利用してこの分野に革命をもたらしている。
近年,コンピュータビジョン(CV)にトランスフォーマーのようなアーキテクチャを採用し,画像分類やオブジェクト検出,セマンティックセグメンテーションといったタスクにおいて,これらのアーキテクチャの優れた性能を報告している。
ビジョントランスフォーマー(ViT)は、競合するモデリング能力のために、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンスを誇示している。
しかし、これらのアーキテクチャは膨大な計算資源を必要とするため、リソース制約されたアプリケーションにこれらのモデルをデプロイすることは困難である。
圧縮変圧器や拡張畳み込み、min-maxプール、1D畳み込みなどの圧縮関数など、この問題に対処する多くのソリューションが開発されている。
モデル圧縮は最近、潜在的な治療としてかなりの研究の注目を集めている。
重み量子化,重み多重化,プルーニング,知識蒸留 (kd) などの文献において,モデル圧縮法が提案されている。
しかしながら、重み量子化、プルーニング、重み多重化といったテクニックは、圧縮を実行するための複雑なパイプラインを必要とする。
KDは、比較的単純なモデルが複雑なモデルと同じくらい正確にタスクを実行できる、シンプルで効果的なモデル圧縮技術であることが分かってきた。
本稿では,vitモデルの効果的圧縮のためのkdに基づく様々な手法について述べる。
この論文は、kdがこれらのモデルの計算とメモリ要求を減らす上で果たす役割を解明している。
本稿は、まだ解決されていないViTが直面する様々な課題についても述べる。
関連論文リスト
- Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - I3D: Transformer architectures with input-dependent dynamic depth for
speech recognition [41.35563331283372]
本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。
また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
論文 参考訳(メタデータ) (2023-03-14T04:47:00Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Compressing Large-Scale Transformer-Based Models: A Case Study on BERT [41.04066537294312]
事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。
これらのモデルは数十億のパラメータを持ち、そのため、リソース不足と計算集約が多すぎて、低機能デバイスやアプリケーションに適合しない。
これに対する潜在的な対策の1つはモデル圧縮であり、多くの研究が注目されている。
論文 参考訳(メタデータ) (2020-02-27T09:20:31Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。