論文の概要: Attention Map Guided Transformer Pruning for Edge Device
- arxiv url: http://arxiv.org/abs/2304.01452v1
- Date: Tue, 4 Apr 2023 01:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:40:34.926201
- Title: Attention Map Guided Transformer Pruning for Edge Device
- Title(参考訳): エッジ装置用アテンションマップ誘導変圧器プルーニング
- Authors: Junzhu Mao, Yazhou Yao, Zeren Sun, Xingguo Huang, Fumin Shen and
Heng-Tao Shen
- Abstract要約: 視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 98.42178656762114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its significant capability of modeling long-range dependencies, vision
transformer (ViT) has achieved promising success in both holistic and occluded
person re-identification (Re-ID) tasks. However, the inherent problems of
transformers such as the huge computational cost and memory footprint are still
two unsolved issues that will block the deployment of ViT based person Re-ID
models on resource-limited edge devices. Our goal is to reduce both the
inference complexity and model size without sacrificing the comparable accuracy
on person Re-ID, especially for tasks with occlusion. To this end, we propose a
novel attention map guided (AMG) transformer pruning method, which removes both
redundant tokens and heads with the guidance of the attention map in a
hardware-friendly way. We first calculate the entropy in the key dimension and
sum it up for the whole map, and the corresponding head parameters of maps with
high entropy will be removed for model size reduction. Then we combine the
similarity and first-order gradients of key tokens along the query dimension
for token importance estimation and remove redundant key and value tokens to
further reduce the inference complexity. Comprehensive experiments on Occluded
DukeMTMC and Market-1501 demonstrate the effectiveness of our proposals. For
example, our proposed pruning strategy on ViT-Base enjoys
\textup{\textbf{29.4\%}} \textup{\textbf{FLOPs}} savings with
\textup{\textbf{0.2\%}} drop on Rank-1 and \textup{\textbf{0.4\%}} improvement
on mAP, respectively.
- Abstract(参考訳): 長距離依存をモデル化する重要な能力のため、視覚トランスフォーマー(ViT)は、全体的かつ隠蔽された人物再識別(Re-ID)タスクにおいて有望な成功を収めた。
しかし、膨大な計算コストやメモリフットプリントといったトランスフォーマー固有の問題は、リソース制限エッジデバイスへのViTベースの人物Re-IDモデルのデプロイを阻止する未解決の問題である。
我々のゴールは、特に閉塞のあるタスクにおいて、人物のRe-IDに匹敵する精度を犠牲にすることなく、推論の複雑さとモデルサイズの両方を削減することである。
そこで本研究では,ハードウェアフレンドリーな方法でアテンションマップの誘導により,冗長なトークンとヘッドの両方を除去する,新しいアテンションマップ誘導型トランスフォーマープルーニング手法を提案する。
まず、キー次元のエントロピーを計算し、地図全体について集計し、それに対応するエントロピーの高い地図の頭部パラメータをモデルサイズ低減のために除去する。
次に、キートークンの類似性と1次勾配をクエリ次元に沿って組み合わせ、トークンの重要度を推定し、冗長なキーと値トークンを除去し、推論の複雑さをさらに軽減する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
例えば、vit-base上で提案するプルーニング戦略は、それぞれrank-1 に降格する \textup{\textbf{0.2\%}} と map に改善される \textup{\textbf{0.4\%}} によって保存される \textup{\textbf{29.4\%}} を満足する。
関連論文リスト
- HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - Size Lowerbounds for Deep Operator Networks [0.27195102129094995]
我々は、ノイズの多いデータに対する経験的エラーを低減するために必要なDeepONetsのサイズに対して、データ依存の低いバウンドを確立する。
固定モデルサイズにおいて、この共通出力次元の増大を利用してトレーニング誤差の単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
論文 参考訳(メタデータ) (2023-08-11T18:26:09Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Indirect-Instant Attention Optimization for Crowd Counting in Dense
Scenes [3.8950254639440094]
SoftMax-Attentionに基づく間接インスタントアテンション最適化(IIAO)モジュール。
特殊変換は比較的粗い特徴をもたらすが、本来は人口密度分布によって予測的誤認可能性が異なる。
局所相関損失 (RCLoss) を調整し, 連続的なエラーが発生しやすい領域とスムーズな空間情報を検索する。
論文 参考訳(メタデータ) (2022-06-12T03:29:50Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - OH-Former: Omni-Relational High-Order Transformer for Person
Re-Identification [30.023365814501137]
我々は,Omni-Relational High-Order Transformer (OH-Former)を提案する。
提案モデル実験の結果は, Market-1501, DukeMTMC, MSMT17, Occluded-Dukeデータセットの最先端性能を示す,優れた有望性を示した。
論文 参考訳(メタデータ) (2021-09-23T06:11:38Z) - Is 2D Heatmap Representation Even Necessary for Human Pose Estimation? [44.313782042852246]
キーポイント座標(emphSimDR)のための textbfSimple yet promising textbfDisentangled textbfRepresentation を提案する。
本稿では,キーポイント位置に対する水平座標と垂直座標の表現をアンタングル化することを提案する。
論文 参考訳(メタデータ) (2021-07-07T16:20:12Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。