Fugu-MT 論文翻訳(概要): A Fast Training-Free Compression Framework for Vision Transformers

論文の概要: A Fast Training-Free Compression Framework for Vision Transformers

arxiv url: http://arxiv.org/abs/2303.02331v1
Date: Sat, 4 Mar 2023 05:34:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 20:13:17.006271
Title: A Fast Training-Free Compression Framework for Vision Transformers
Title（参考訳）: 視覚トランスフォーマーのための高速トレーニングフリー圧縮フレームワーク
Authors: Jung Hwan Heo, Arash Fayyazi, Mahdi Nazemi, Massoud Pedram
Abstract要約: トケンプルーニングは、大きなトランスフォーマーモデルの推論を高速化する有効なソリューションとして登場した。しかし、ViT(Vision Transformer)モデルの加速には、スクラッチからのトレーニングや、追加パラメータによる微調整が必要である。本研究では, (i) 初期層における高密度特徴抽出器, (ii) 圧縮性に優れたシャープネス最小化モデル, (iii) 局所的・グローバル的トークンマージによる高速な訓練自由圧縮フレームワークを提案する。
参考スコア（独自算出の注目度）: 3.5024680868164437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Token pruning has emerged as an effective solution to speed up the inference of large Transformer models. However, prior work on accelerating Vision Transformer (ViT) models requires training from scratch or fine-tuning with additional parameters, which prevents a simple plug-and-play. To avoid high training costs during the deployment stage, we present a fast training-free compression framework enabled by (i) a dense feature extractor in the initial layers; (ii) a sharpness-minimized model which is more compressible; and (iii) a local-global token merger that can exploit spatial relationships at various contexts. We applied our framework to various ViT and DeiT models and achieved up to 2x reduction in FLOPS and 1.8x speedup in inference throughput with <1% accuracy loss, while saving two orders of magnitude shorter training times than existing approaches. Code will be available at https://github.com/johnheo/fast-compress-vit
Abstract（参考訳）: トケンプルーニングは、大きなトランスフォーマーモデルの推論を高速化する有効なソリューションとして登場した。しかしながら、視覚トランスフォーマー(vit)モデルを加速する以前の作業では、スクラッチからのトレーニングやパラメータの追加による微調整が必要であり、単純なプラグアンドプレイを防止できる。展開段階における高いトレーニングコストを回避するため,高速なトレーニングフリー圧縮フレームワークを提案する。 (i)初期層における密集した特徴抽出装置 (ii)圧縮性に優れたシャープネス最小化モデル、及び (iii)様々な文脈で空間的関係を活用できる局所的グローバルトークン合併。我々は,様々なvitモデルとdeitモデルに適用し,従来の手法よりも2桁短いトレーニング時間を節約しつつ,推定スループットの最大2倍のフロップ削減と1.8倍の高速化を達成している。コードはhttps://github.com/johnheo/fast-compress-vitで入手できる。

関連論文リスト

Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文参考訳（メタデータ） (2025-05-21T15:12:34Z)
Improving Interpretation Faithfulness for Vision Transformers [42.86486715574245]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。 ViTは、彼らの焦点が敵の攻撃に対して脆弱であるため、説明の忠実さに関する問題に悩まされる。本稿では、Fithful ViTs(FViTs)を導入してこれらの問題を緩和するための厳格なアプローチを提案する。
論文参考訳（メタデータ） (2023-11-29T18:51:21Z)
I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。 I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文参考訳（メタデータ） (2023-11-16T13:07:47Z)
Accelerating Vision Transformers Based on Heterogeneous Attention Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文参考訳（メタデータ） (2023-10-11T17:09:19Z)
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文参考訳（メタデータ） (2023-09-27T16:12:07Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。 ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。所望の低域制限を緩和する2つの手法を提案する。
論文参考訳（メタデータ） (2022-03-09T23:55:24Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文参考訳（メタデータ） (2021-06-08T08:20:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。