論文の概要: Optimizing Vision Transformers with Data-Free Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2408.05952v1
- Date: Mon, 12 Aug 2024 07:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:35:18.963746
- Title: Optimizing Vision Transformers with Data-Free Knowledge Transfer
- Title(参考訳): データフリーな知識伝達による視覚変換器の最適化
- Authors: Gousia Habib, Damandeep Singh, Ishfaq Ahmad Malik, Brejesh Lall,
- Abstract要約: 視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
- 参考スコア(独自算出の注目度): 8.323741354066474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The groundbreaking performance of transformers in Natural Language Processing (NLP) tasks has led to their replacement of traditional Convolutional Neural Networks (CNNs), owing to the efficiency and accuracy achieved through the self-attention mechanism. This success has inspired researchers to explore the use of transformers in computer vision tasks to attain enhanced long-term semantic awareness. Vision transformers (ViTs) have excelled in various computer vision tasks due to their superior ability to capture long-distance dependencies using the self-attention mechanism. Contemporary ViTs like Data Efficient Transformers (DeiT) can effectively learn both global semantic information and local texture information from images, achieving performance comparable to traditional CNNs. However, their impressive performance comes with a high computational cost due to very large number of parameters, hindering their deployment on devices with limited resources like smartphones, cameras, drones etc. Additionally, ViTs require a large amount of data for training to achieve performance comparable to benchmark CNN models. Therefore, we identified two key challenges in deploying ViTs on smaller form factor devices: the high computational requirements of large models and the need for extensive training data. As a solution to these challenges, we propose compressing large ViT models using Knowledge Distillation (KD), which is implemented data-free to circumvent limitations related to data availability. Additionally, we conducted experiments on object detection within the same environment in addition to classification tasks. Based on our analysis, we found that datafree knowledge distillation is an effective method to overcome both issues, enabling the deployment of ViTs on less resourceconstrained devices.
- Abstract(参考訳): 自然言語処理(NLP)タスクにおけるトランスフォーマーの性能は、自己認識機構によって達成された効率と精度のため、従来の畳み込みニューラルネットワーク(CNN)を置き換える結果となった。
この成功は、コンピュータビジョンタスクにおけるトランスフォーマーの使用による長期的意味認識の強化を研究者に促した。
視覚変換器(ViT)は、自己認識機構を用いて長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
Data Efficient Transformers (DeiT)のような現代のViTは、画像からグローバルセマンティック情報とローカルテクスチャ情報の両方を効果的に学習し、従来のCNNに匹敵するパフォーマンスを達成する。
しかし、その優れたパフォーマンスは、非常に多くのパラメーターのために計算コストが高く、スマートフォン、カメラ、ドローンなどの限られたリソースを持つデバイスへの展開を妨げている。
さらに、ViTはベンチマークCNNモデルに匹敵するパフォーマンスを達成するために、トレーニングのために大量のデータを必要とする。
そこで我々は,より小さなフォームファクターデバイスにViTをデプロイする上で,大きなモデルの高い計算要求と広範なトレーニングデータの必要性という2つの重要な課題を特定した。
これらの課題に対する解決策として,知識蒸留(KD)を用いた大規模なViTモデルの圧縮を提案する。
さらに,同一環境内における物体検出実験を行い,分類課題について検討した。
分析の結果,データフリーな知識蒸留は両問題を克服する有効な方法であり,資源制約の少ないデバイスにViTを配置できることがわかった。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - LOTUS: Improving Transformer Efficiency with Sparsity Pruning and Data Lottery Tickets [0.0]
ビジョントランスフォーマーはコンピュータビジョンに革命をもたらしたが、その計算要求はトレーニングとデプロイメントの課題を提示している。
本稿では,データの宝くじ選択と空間プルーニングを利用して,精度を維持しながら視覚変換器のトレーニングを高速化する新しい手法であるLOTUSを紹介する。
論文 参考訳(メタデータ) (2024-05-01T23:30:12Z) - Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - MoViT: Memorizing Vision Transformers for Medical Image Analysis [13.541165687193581]
トランスフォーマーベースのアーキテクチャのトレーニングとデプロイを成功させるために,大規模なデータセットの必要性を軽減するために,覚醒型ビジョントランスフォーマー(MoViT)を提案する。
MoViTはトレーニングデータのわずか3.0%でViTの競争性能に達することができる。
論文 参考訳(メタデータ) (2023-03-27T19:12:02Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。