Fugu-MT 論文翻訳(概要): Comprehensive Survey of Model Compression and Speed up for Vision Transformers

論文の概要: Comprehensive Survey of Model Compression and Speed up for Vision Transformers

arxiv url: http://arxiv.org/abs/2404.10407v1
Date: Tue, 16 Apr 2024 09:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 17:23:30.993710
Title: Comprehensive Survey of Model Compression and Speed up for Vision Transformers
Title（参考訳）: 視覚変換器のモデル圧縮と高速化に関する総合的調査
Authors: Feiyang Chen, Ziqian Luo, Lisang Zhou, Xueting Pan, Ying Jiang,
Abstract要約: ViT(Vision Transformers)はコンピュータビジョンのパラダイムシフトであり、様々なタスクにおける最先端モデルよりも優れています。しかし、それらの実践的な展開は、高い計算量とメモリ要求によって妨げられる。本研究は,4つの主要なモデル圧縮手法を評価することで課題に対処する。
参考スコア（独自算出の注目度）: 5.592810604696031
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision Transformers (ViT) have marked a paradigm shift in computer vision, outperforming state-of-the-art models across diverse tasks. However, their practical deployment is hampered by high computational and memory demands. This study addresses the challenge by evaluating four primary model compression techniques: quantization, low-rank approximation, knowledge distillation, and pruning. We methodically analyze and compare the efficacy of these techniques and their combinations in optimizing ViTs for resource-constrained environments. Our comprehensive experimental evaluation demonstrates that these methods facilitate a balanced compromise between model accuracy and computational efficiency, paving the way for wider application in edge computing devices.
Abstract（参考訳）: ViT(Vision Transformers)はコンピュータビジョンのパラダイムシフトであり、様々なタスクにおける最先端モデルよりも優れています。しかし、それらの実践的な展開は、高い計算量とメモリ要求によって妨げられる。本研究は, 定量化, 低ランク近似, 知識蒸留, プルーニングの4つの主要なモデル圧縮技術を評価することで, 課題に対処する。資源制約環境に対するViTの最適化におけるこれらの手法の有効性とそれらの組み合わせの有効性を定量的に分析・比較する。総合的な実験的評価により,これらの手法はモデル精度と計算効率のバランスの取れた妥協を助長し,エッジコンピューティングデバイスにおける幅広い応用の道を開いた。

関連論文リスト

Input Resolution Downsizing as a Compression Technique for Vision Deep Learning Systems [1.6932009464531739]
入力分解能の低下が分類とセマンティックセグメンテーションの両方のタスク、およびコンブネットとトランスフォーマーベースのアーキテクチャに与える影響について検討する。標準ベンチマークによる実験結果から,本手法の可能性を強調し,計算とメモリの要求を大幅に低減し,競争性能を向上する。本研究は,視覚応用のためのモデル圧縮技術の広い視野において,入力分解能の低減が実現可能かつ有望な方向であることを示す。
論文参考訳（メタデータ） (2025-04-01T19:34:57Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Efficient Partitioning Vision Transformer on Edge Devices for Distributed Inference [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑な視覚変換器を効率的に分割・実行するための新しいフレームワークED-ViTを提案する。私たちのアプローチでは、Vision Transformerモデルをいくつかのサブモデルに分割し、それぞれがデータクラスの特定のサブセットを処理する。本研究では,エッジデバイスにおける推論遅延を大幅に削減し,モデルサイズを最大28.9倍,34.1倍に削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T14:38:14Z)
Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文参考訳（メタデータ） (2024-05-31T15:34:13Z)
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark [97.8968058408759]
事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに顕著な適応性を示した。これらのモデルが数十億または数兆のパラメータにスケールするにつれて、計算と記憶の要求が高いため、従来の完全な微調整はますます非現実的になっている。パラメータ効率の良いファインチューニング(PEFT)は、モデルパラメータを最小限に調整しながら、完全なファインチューニングに匹敵するパフォーマンスを実現するための、有望な代替手段として登場した。
論文参考訳（メタデータ） (2024-02-03T19:12:20Z)
Model Compression Techniques in Biometrics Applications: A Survey [5.452293986561535]
ディープラーニングアルゴリズムは人類のタスク自動化能力を大きく強化してきた。これらのモデルの性能の大幅な改善は、その複雑さの増大と非常に相関している。これにより、性能を著しく低下させることなく、ディープラーニングモデルの計算コストとメモリコストを大幅に削減する圧縮技術の開発につながった。
論文参考訳（メタデータ） (2024-01-18T17:06:21Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文参考訳（メタデータ） (2023-09-15T09:18:54Z)
A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文参考訳（メタデータ） (2023-09-05T08:21:16Z)
Diffusion-based Visual Counterfactual Explanations -- Towards Systematic Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文参考訳（メタデータ） (2023-08-11T12:22:37Z)
Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。 PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文参考訳（メタデータ） (2022-03-04T11:47:20Z)
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文参考訳（メタデータ） (2021-11-30T18:57:02Z)
Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文参考訳（メタデータ） (2021-07-03T08:28:34Z)
Data-driven surrogate modelling and benchmarking for process equipment [1.8395181176356432]
化学プロセス機器のモデリングを目的とした計算流体力学(CFD)シミュレーションスイートを開発した。有限関数評価予算の制約の下で,これらのCFDシミュレータをループ内での回帰型能動学習戦略について検討した。
論文参考訳（メタデータ） (2020-03-13T18:22:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。