論文の概要: Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies
- arxiv url: http://arxiv.org/abs/2503.02891v1
- Date: Wed, 26 Feb 2025 22:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:20.506686
- Title: Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies
- Title(参考訳): エッジ上の視覚変換器:モデル圧縮と加速戦略の包括的調査
- Authors: Shaibal Saha, Lanyu Xu,
- Abstract要約: ビジョントランス (ViT) はコンピュータビジョンタスクのための強力で有望な技術として登場した。
高い計算複雑性とメモリ要求は、リソース制約のあるエッジデバイスへのデプロイに困難をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, vision transformers (ViTs) have emerged as powerful and promising techniques for computer vision tasks such as image classification, object detection, and segmentation. Unlike convolutional neural networks (CNNs), which rely on hierarchical feature extraction, ViTs treat images as sequences of patches and leverage self-attention mechanisms. However, their high computational complexity and memory demands pose significant challenges for deployment on resource-constrained edge devices. To address these limitations, extensive research has focused on model compression techniques and hardware-aware acceleration strategies. Nonetheless, a comprehensive review that systematically categorizes these techniques and their trade-offs in accuracy, efficiency, and hardware adaptability for edge deployment remains lacking. This survey bridges this gap by providing a structured analysis of model compression techniques, software tools for inference on edge, and hardware acceleration strategies for ViTs. We discuss their impact on accuracy, efficiency, and hardware adaptability, highlighting key challenges and emerging research directions to advance ViT deployment on edge platforms, including graphics processing units (GPUs), tensor processing units (TPUs), and field-programmable gate arrays (FPGAs). The goal is to inspire further research with a contemporary guide on optimizing ViTs for efficient deployment on edge devices.
- Abstract(参考訳): 近年、視覚変換器(ViT)は、画像分類、オブジェクト検出、セグメンテーションなどのコンピュータビジョンタスクにおいて、強力で有望な技術として出現している。
階層的特徴抽出に依存する畳み込みニューラルネットワーク(CNN)とは異なり、ViTはイメージをパッチのシーケンスとして扱い、自己認識機構を活用する。
しかし、その高い計算複雑性とメモリ要求は、リソースに制約のあるエッジデバイスへのデプロイに重大な課題をもたらす。
これらの制限に対処するため、モデル圧縮技術とハードウェア対応加速度戦略を幅広く研究してきた。
それでも、これらのテクニックとそれらのトレードオフを体系的に分類する包括的なレビューは、エッジデプロイメントの正確性、効率、ハードウェア適応性に欠けています。
この調査は、モデル圧縮技術の構造解析、エッジ推論のためのソフトウェアツール、ViTのハードウェアアクセラレーション戦略を提供することで、このギャップを埋める。
本稿では,グラフィック処理ユニット(GPU),テンソル処理ユニット(TPU),フィールドプログラマブルゲートアレイ(FPGA)など,エッジプラットフォームへのViT展開に向けた重要な課題と新たな研究方向を明らかにする。
目標は、エッジデバイスへの効率的なデプロイのためにViTを最適化するための現代的なガイドで、さらなる研究を刺激することである。
関連論文リスト
- On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。
本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文 参考訳(メタデータ) (2025-01-25T01:37:03Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.523939613157408]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。
ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文 参考訳(メタデータ) (2024-07-17T16:56:06Z) - Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey [6.04807281619171]
ビジョントランスフォーマー(ViT)は近年、いくつかの視覚関連アプリケーションにおいて、畳み込みニューラルネットワーク(CNN)に代わる有望な選択肢として、かなりの注目を集めている。
本稿では,ViTs量子化とそのハードウェアアクセラレーションに関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-01T04:32:07Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。