論文の概要: A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking
- arxiv url: http://arxiv.org/abs/2309.02031v2
- Date: Tue, 12 Mar 2024 10:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:42:17.357301
- Title: A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking
- Title(参考訳): 効率的な視覚トランスフォーマーに関する調査:アルゴリズム、技術、およびパフォーマンスベンチマーク
- Authors: Lorenzo Papa, Paolo Russo, Irene Amerini, and Luping Zhou
- Abstract要約: Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
- 参考スコア(独自算出の注目度): 19.65897437342896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) architectures are becoming increasingly popular and
widely employed to tackle computer vision applications. Their main feature is
the capacity to extract global information through the self-attention
mechanism, outperforming earlier convolutional neural networks. However, ViT
deployment and performance have grown steadily with their size, number of
trainable parameters, and operations. Furthermore, self-attention's
computational and memory cost quadratically increases with the image
resolution. Generally speaking, it is challenging to employ these architectures
in real-world applications due to many hardware and environmental restrictions,
such as processing and computational capabilities. Therefore, this survey
investigates the most efficient methodologies to ensure sub-optimal estimation
performances. More in detail, four efficient categories will be analyzed:
compact architecture, pruning, knowledge distillation, and quantization
strategies. Moreover, a new metric called Efficient Error Rate has been
introduced in order to normalize and compare models' features that affect
hardware devices at inference time, such as the number of parameters, bits,
FLOPs, and model size. Summarizing, this paper firstly mathematically defines
the strategies used to make Vision Transformer efficient, describes and
discusses state-of-the-art methodologies, and analyzes their performances over
different application scenarios. Toward the end of this paper, we also discuss
open challenges and promising research directions.
- Abstract(参考訳): Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
彼らの主な特徴は、自己追跡機構を通じてグローバル情報を抽出する能力であり、初期の畳み込みニューラルネットワークを上回っている。
しかし、ViTのデプロイメントとパフォーマンスは、サイズ、トレーニング可能なパラメータの数、操作によって着実に向上している。
さらに、自己注意の計算コストとメモリコストは、画像解像度によって2次的に増加する。
一般的に言って、処理や計算能力といった多くのハードウェアや環境上の制約のため、現実のアプリケーションでこれらのアーキテクチャを採用することは困難である。
そこで本研究では,最小最適推定性能を確保するための最も効率的な手法について検討する。
より詳しくは、コンパクトアーキテクチャ、プルーニング、知識蒸留、量子化戦略の4つの効率的なカテゴリが分析される。
さらに、パラメータ数、ビット数、フロップ数、モデルサイズなど、推論時にハードウェアデバイスに影響するモデルの機能を正規化し比較するために、効率的なエラーレートと呼ばれる新しいメトリックが導入された。
本稿ではまず,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,現状の方法論を記述し,議論し,その性能を異なるアプリケーションシナリオで分析する。
本稿の最後には,オープンチャレンジと有望な研究方向性についても論じる。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文 参考訳(メタデータ) (2024-10-14T08:21:00Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Comprehensive Survey of Model Compression and Speed up for Vision Transformers [5.592810604696031]
ViT(Vision Transformers)はコンピュータビジョンのパラダイムシフトであり、様々なタスクにおける最先端モデルよりも優れています。
しかし、それらの実践的な展開は、高い計算量とメモリ要求によって妨げられる。
本研究は,4つの主要なモデル圧縮手法を評価することで課題に対処する。
論文 参考訳(メタデータ) (2024-04-16T09:19:11Z) - Can pruning make Large Language Models more efficient? [0.0]
本稿では,トランスフォーマーアーキテクチャの最適化戦略として,ウェイトプルーニングの適用について検討する。
以上の結果から,モデルサイズの大幅な削減は,性能にかなりの妥協を伴わずに達成できることが示唆された。
この作業は、モデル効率とパフォーマンスのギャップを埋め、よりスケーラブルで環境に責任のあるディープラーニングアプリケーションへの道を開くことを目的としています。
論文 参考訳(メタデータ) (2023-10-06T20:28:32Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Visualizing High-Dimensional Trajectories on the Loss-Landscape of ANNs [15.689418447376587]
ニューラルネットワークを訓練するには、高度に非次元的な損失関数の最適化が必要である。
可視化ツールは、ANNの損失ランドスケープの鍵となる幾何学的特徴を明らかにする上で重要な役割を果たしてきた。
局所構造と大域構造の両方でSOTAを表すモダニティ低減手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T16:30:50Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。