論文の概要: Attention Map Guided Transformer Pruning for Edge Device
- arxiv url: http://arxiv.org/abs/2304.01452v1
- Date: Tue, 4 Apr 2023 01:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-05 15:40:34.926201
- Title: Attention Map Guided Transformer Pruning for Edge Device
- Title(参考訳): エッジ装置用アテンションマップ誘導変圧器プルーニング
- Authors: Junzhu Mao, Yazhou Yao, Zeren Sun, Xingguo Huang, Fumin Shen and
Heng-Tao Shen
- Abstract要約: 視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 98.42178656762114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its significant capability of modeling long-range dependencies, vision
transformer (ViT) has achieved promising success in both holistic and occluded
person re-identification (Re-ID) tasks. However, the inherent problems of
transformers such as the huge computational cost and memory footprint are still
two unsolved issues that will block the deployment of ViT based person Re-ID
models on resource-limited edge devices. Our goal is to reduce both the
inference complexity and model size without sacrificing the comparable accuracy
on person Re-ID, especially for tasks with occlusion. To this end, we propose a
novel attention map guided (AMG) transformer pruning method, which removes both
redundant tokens and heads with the guidance of the attention map in a
hardware-friendly way. We first calculate the entropy in the key dimension and
sum it up for the whole map, and the corresponding head parameters of maps with
high entropy will be removed for model size reduction. Then we combine the
similarity and first-order gradients of key tokens along the query dimension
for token importance estimation and remove redundant key and value tokens to
further reduce the inference complexity. Comprehensive experiments on Occluded
DukeMTMC and Market-1501 demonstrate the effectiveness of our proposals. For
example, our proposed pruning strategy on ViT-Base enjoys
\textup{\textbf{29.4\%}} \textup{\textbf{FLOPs}} savings with
\textup{\textbf{0.2\%}} drop on Rank-1 and \textup{\textbf{0.4\%}} improvement
on mAP, respectively.
- Abstract(参考訳): 長距離依存をモデル化する重要な能力のため、視覚トランスフォーマー(ViT)は、全体的かつ隠蔽された人物再識別(Re-ID)タスクにおいて有望な成功を収めた。
しかし、膨大な計算コストやメモリフットプリントといったトランスフォーマー固有の問題は、リソース制限エッジデバイスへのViTベースの人物Re-IDモデルのデプロイを阻止する未解決の問題である。
我々のゴールは、特に閉塞のあるタスクにおいて、人物のRe-IDに匹敵する精度を犠牲にすることなく、推論の複雑さとモデルサイズの両方を削減することである。
そこで本研究では,ハードウェアフレンドリーな方法でアテンションマップの誘導により,冗長なトークンとヘッドの両方を除去する,新しいアテンションマップ誘導型トランスフォーマープルーニング手法を提案する。
まず、キー次元のエントロピーを計算し、地図全体について集計し、それに対応するエントロピーの高い地図の頭部パラメータをモデルサイズ低減のために除去する。
次に、キートークンの類似性と1次勾配をクエリ次元に沿って組み合わせ、トークンの重要度を推定し、冗長なキーと値トークンを除去し、推論の複雑さをさらに軽減する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
例えば、vit-base上で提案するプルーニング戦略は、それぞれrank-1 に降格する \textup{\textbf{0.2\%}} と map に改善される \textup{\textbf{0.4\%}} によって保存される \textup{\textbf{29.4\%}} を満足する。
関連論文リスト
- Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation [59.1067331268383]
TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
論文 参考訳(メタデータ) (2025-08-05T12:40:55Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference [0.41942958779358674]
ビジョントランスフォーマーは最先端のパフォーマンスを提供するが、その固定予算は異種ハードウェア間のスケーラブルなデプロイメントを妨げている。
インプットの難易度に基づいて推論を動的に調整するために,プログレッシブな思考段階を利用するネスト型ViTアーキテクチャであるThinkingViTを紹介する。
ThinkingViT は同じスループットでネストされたベースラインを最大2.0パーセンテージ(p.p.p.)、ImageNet-1Kで最大2.9パーセンテージで上回る。
論文 参考訳(メタデータ) (2025-07-14T20:54:41Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - Size Lowerbounds for Deep Operator Networks [0.27195102129094995]
我々は、ノイズの多いデータに対する経験的エラーを低減するために必要なDeepONetsのサイズに対して、データ依存の低いバウンドを確立する。
固定モデルサイズにおいて、この共通出力次元の増大を利用してトレーニング誤差の単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
論文 参考訳(メタデータ) (2023-08-11T18:26:09Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Indirect-Instant Attention Optimization for Crowd Counting in Dense
Scenes [3.8950254639440094]
SoftMax-Attentionに基づく間接インスタントアテンション最適化(IIAO)モジュール。
特殊変換は比較的粗い特徴をもたらすが、本来は人口密度分布によって予測的誤認可能性が異なる。
局所相関損失 (RCLoss) を調整し, 連続的なエラーが発生しやすい領域とスムーズな空間情報を検索する。
論文 参考訳(メタデータ) (2022-06-12T03:29:50Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - OH-Former: Omni-Relational High-Order Transformer for Person
Re-Identification [30.023365814501137]
我々は,Omni-Relational High-Order Transformer (OH-Former)を提案する。
提案モデル実験の結果は, Market-1501, DukeMTMC, MSMT17, Occluded-Dukeデータセットの最先端性能を示す,優れた有望性を示した。
論文 参考訳(メタデータ) (2021-09-23T06:11:38Z) - Is 2D Heatmap Representation Even Necessary for Human Pose Estimation? [44.313782042852246]
キーポイント座標(emphSimDR)のための textbfSimple yet promising textbfDisentangled textbfRepresentation を提案する。
本稿では,キーポイント位置に対する水平座標と垂直座標の表現をアンタングル化することを提案する。
論文 参考訳(メタデータ) (2021-07-07T16:20:12Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。