Fugu-MT 論文翻訳(概要): NViT: Vision Transformer Compression and Parameter Redistribution

論文の概要: NViT: Vision Transformer Compression and Parameter Redistribution

arxiv url: http://arxiv.org/abs/2110.04869v1
Date: Sun, 10 Oct 2021 18:04:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-12 18:03:19.602828
Title: NViT: Vision Transformer Compression and Parameter Redistribution
Title（参考訳）: NViT:視覚変換器圧縮とパラメータ再分配
Authors: Huanrui Yang, Hongxu Yin, Pavlo Molchanov, Hai Li, Jan Kautz
Abstract要約: 遅延低減のための視覚変換器 (ViT) モデルの全パラメータに対して, 遅延を考慮した正規化によるグローバルかつ構造的なプルーニングを適用する。我々の発見はNViT (Novel ViT) と呼ばれる新しいアーキテクチャに繋がる。 ImageNet-1Kでは、DIT-Base(Touvron et al., 2021)モデルを2.6倍のFLOPs削減、5.1倍のパラメータ削減、1.9倍のランタイム高速化を実現し、精度は0.07%しか損なわない。
参考スコア（独自算出の注目度）: 83.67567270539892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers yield state-of-the-art results across many tasks. However, they still impose huge computational costs during inference. We apply global, structural pruning with latency-aware regularization on all parameters of the Vision Transformer (ViT) model for latency reduction. Furthermore, we analyze the pruned architectures and find interesting regularities in the final weight structure. Our discovered insights lead to a new architecture called NViT (Novel ViT), with a redistribution of where parameters are used. This architecture utilizes parameters more efficiently and enables control of the latency-accuracy trade-off. On ImageNet-1K, we prune the DEIT-Base (Touvron et al., 2021) model to a 2.6x FLOPs reduction, 5.1x parameter reduction, and 1.9x run-time speedup with only 0.07% loss in accuracy. We achieve more than 1% accuracy gain when compressing the base model to the throughput of the Small/Tiny variants. NViT gains 0.1-1.1% accuracy over the hand-designed DEIT family when trained from scratch, while being faster.
Abstract（参考訳）: トランスフォーマーは多くのタスクで最先端の結果をもたらす。しかし、推論中に膨大な計算コストがかかる。我々は、遅延低減のためにvision transformer(vit)モデルのすべてのパラメータに、レイテンシを認識したグローバル構造プルーニングを適用する。さらに,prunedアーキテクチャを分析し,最終重み構造に興味深い正則性を見出した。我々の発見はNViT(Novel ViT)と呼ばれる新しいアーキテクチャにつながり、パラメータの使い方を再分配する。このアーキテクチャはパラメータをより効率的に利用し、遅延精度トレードオフの制御を可能にする。 ImageNet-1Kでは、DIT-Base(Touvron et al., 2021)モデルを2.6倍のFLOPs削減、5.1倍のパラメータ削減、1.9倍のランタイム高速化を実現し、精度は0.07%しか損なわない。ベースモデルを小型/tiny変種のスループットに圧縮すると,1%以上の精度向上が得られる。 NViTは、スクラッチからトレーニングした時に手書きのDEITファミリーよりも0.1-1.1%精度が向上する。

関連論文リスト

MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions [1.0411839100853515]
MoR-ViTはトークンレベルの動的再帰機構を組み込んだ新しいビジョントランスフォーマーフレームワークである。 ImageNet-1Kと転送ベンチマークの実験は、MoR-ViTが最大70%のパラメータ還元と2.5倍の推論加速で最先端の精度を達成することを示した。
論文参考訳（メタデータ） (2025-07-29T12:46:36Z)
RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers [14.876863939653548]
我々は、注意層ではなく、フィードフォワードネットワーク(FFN)層が視覚変換器(ViT)の推論遅延の主な要因であることを明らかにした。本研究では,テスト中の効率的なFFN層に対するポストトレーニング後構造的再パラメータ化を容易にする新しいチャネルアイドル機構を提案する。
論文参考訳（メタデータ） (2025-05-28T00:27:18Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。 DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文参考訳（メタデータ） (2024-11-26T17:28:10Z)
Learning Parameter Sharing with Tensor Decompositions and Sparsity [5.73573685846194]
大規模視覚変換器(ViT)と大規模言語モデル(LLM)を圧縮するための細粒度特異共有(FiPS)を導入する。 FiPSは、多層パーセプトロン(MLP)モジュール間でニューロンを表現するために共有塩基とスパース因子を用いる。実験の結果, 各種Gemma-2およびLlama-3モデルでは, パラメータ予算をDeiT-BおよびSwin-Lで50-75%, Gemma-2およびLlama-3モデルで40-50%削減できることがわかった。
論文参考訳（メタデータ） (2024-11-14T21:29:58Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。 ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文参考訳（メタデータ） (2024-07-02T08:58:19Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文参考訳（メタデータ） (2023-10-09T11:56:35Z)
GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文参考訳（メタデータ） (2023-01-13T00:40:24Z)
EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。 ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文参考訳（メタデータ） (2022-03-14T14:01:17Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文参考訳（メタデータ） (2021-11-30T05:01:02Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。