論文の概要: DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices
- arxiv url: http://arxiv.org/abs/2309.05015v1
- Date: Sun, 10 Sep 2023 12:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:09:16.171926
- Title: DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices
- Title(参考訳): devit: エッジデバイスにおける協調推論のためのビジョントランスフォーマーの分解
- Authors: Guanyu Xu, Zhiwei Hao, Yong Luo, Han Hu, Jianping An, Shiwen Mao
- Abstract要約: ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.89175608336226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the great success of vision transformer (ViT),
which has achieved state-of-the-art performance on multiple computer vision
benchmarks. However, ViT models suffer from vast amounts of parameters and high
computation cost, leading to difficult deployment on resource-constrained edge
devices. Existing solutions mostly compress ViT models to a compact model but
still cannot achieve real-time inference. To tackle this issue, we propose to
explore the divisibility of transformer structure, and decompose the large ViT
into multiple small models for collaborative inference at edge devices. Our
objective is to achieve fast and energy-efficient collaborative inference while
maintaining comparable accuracy compared with large ViTs. To this end, we first
propose a collaborative inference framework termed DeViT to facilitate edge
deployment by decomposing large ViTs. Subsequently, we design a
decomposition-and-ensemble algorithm based on knowledge distillation, termed
DEKD, to fuse multiple small decomposed models while dramatically reducing
communication overheads, and handle heterogeneous models by developing a
feature matching module to promote the imitations of decomposed models from the
large ViT. Extensive experiments for three representative ViT backbones on four
widely-used datasets demonstrate our method achieves efficient collaborative
inference for ViTs and outperforms existing lightweight ViTs, striking a good
trade-off between efficiency and accuracy. For example, our DeViTs improves
end-to-end latency by 2.89$\times$ with only 1.65% accuracy sacrifice using
CIFAR-100 compared to the large ViT, ViT-L/16, on the GPU server. DeDeiTs
surpasses the recent efficient ViT, MobileViT-S, by 3.54% in accuracy on
ImageNet-1K, while running 1.72$\times$ faster and requiring 55.28% lower
energy consumption on the edge device.
- Abstract(参考訳): 近年では、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成したビジョントランスフォーマー(ViT)が大きな成功を収めている。
しかし、ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約のエッジデバイスへの展開が困難になる。
既存のソリューションは主にViTモデルをコンパクトなモデルに圧縮するが、リアルタイム推論はできない。
そこで本研究では, 変圧器構造の違いを解明し, 大規模ViTを複数の小さなモデルに分解し, エッジデバイスでの協調推論を提案する。
本研究の目的は,大規模vitと同等の精度を維持しつつ,高速かつエネルギー効率の高い協調推論を実現することにある。
そこで我々はまず,大規模なViTを分解してエッジ展開を容易にする,DeViTと呼ばれる協調推論フレームワークを提案する。
続いて,コミュニケーションオーバーヘッドを劇的に低減しつつ,複数の小さな分解モデルを融合させ,大きなvitから分解モデルの模倣を促進するために特徴マッチングモジュールを開発し,異種モデルを扱う,知識蒸留に基づく分解・センスアルゴリズムを設計・設計する。
4つの広範に使用されるデータセットにおける3つのvitバックボーンの広範な実験により、vitの効率的な協調推論が可能となり、既存の軽量vitよりも優れており、効率と精度のトレードオフとなる。
例えば、当社のDeViTsは、GPUサーバ上の大きなViTであるViT-L/16と比較して、CIFAR-100を使用した精度が1.65%しか犠牲にすることなく、エンドツーエンドのレイテンシを2.89$\times$に改善しています。
DeDeiTsは、最新の効率的なViTであるMobileViT-Sを、ImageNet-1Kで3.54%の精度で上回り、1.72$\times$高速で、エッジデバイスで55.28%のエネルギー消費を必要とする。
関連論文リスト
- GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。