論文の概要: HEART-VIT: Hessian-Guided Efficient Dynamic Attention and Token Pruning in Vision Transformer
- arxiv url: http://arxiv.org/abs/2512.20120v1
- Date: Tue, 23 Dec 2025 07:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.786629
- Title: HEART-VIT: Hessian-Guided Efficient Dynamic Attention and Token Pruning in Vision Transformer
- Title(参考訳): Hessian-Guided Efficient Dynamic Attention and Token Pruning in Vision Transformer
- Authors: Mohammad Helal Uddin, Liam Seymour, Sabur Baidya,
- Abstract要約: 本稿では,Hessian-Guided efficient dynamic attention and token pruning framework for vision transformerを紹介する。
HEART-ViTは、効率的なヘッセンベクトル生成物を用いてトークンとアテンションヘッドの曲率重み付け感度を推定する。
ImageNet-100とImageNet-1KのViT-B/16とDeiT-B/16では、HEART-ViTは最大49.4%のFLOP削減、36%のレイテンシ、6%のスループットを実現している。
- 参考スコア(独自算出の注目度): 3.652580364273503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) deliver state-of-the-art accuracy but their quadratic attention cost and redundant computations severely hinder deployment on latency and resource-constrained platforms. Existing pruning approaches treat either tokens or heads in isolation, relying on heuristics or first-order signals, which often sacrifice accuracy or fail to generalize across inputs. We introduce HEART-ViT, a Hessian-guided efficient dynamic attention and token pruning framework for vision transformers, which to the best of our knowledge is the first unified, second-order, input-adaptive framework for ViT optimization. HEART-ViT estimates curvature-weighted sensitivities of both tokens and attention heads using efficient Hessian-vector products, enabling principled pruning decisions under explicit loss budgets.This dual-view sensitivity reveals an important structural insight: token pruning dominates computational savings, while head pruning provides fine-grained redundancy removal, and their combination achieves a superior trade-off. On ImageNet-100 and ImageNet-1K with ViT-B/16 and DeiT-B/16, HEART-ViT achieves up to 49.4 percent FLOPs reduction, 36 percent lower latency, and 46 percent higher throughput, while consistently matching or even surpassing baseline accuracy after fine-tuning, for example 4.7 percent recovery at 40 percent token pruning. Beyond theoretical benchmarks, we deploy HEART-ViT on different edge devices such as AGX Orin, demonstrating that our reductions in FLOPs and latency translate directly into real-world gains in inference speed and energy efficiency. HEART-ViT bridges the gap between theory and practice, delivering the first unified, curvature-driven pruning framework that is both accuracy-preserving and edge-efficient.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は最先端の精度を提供するが、その二次的な注意コストと冗長な計算は、レイテンシやリソース制約のあるプラットフォームへのデプロイを著しく妨げている。
既存のプルーニングアプローチは、トークンまたはヘッドを分離して扱い、ヒューリスティックまたは一階信号に依存し、しばしば精度を犠牲にしたり、入力をまたいだ一般化に失敗する。
本稿では,Hessian-Guided efficient dynamic attention and token pruning framework for vision transformerを紹介する。
HEART-ViTは、効率的なヘシアンベクター製品を用いてトークンとアテンションヘッドの曲率重み付け感度を推定し、明示的な損失予算下でのプルーニング決定を可能にする。
ImageNet-100とImageNet-1KとViT-B/16とDeiT-B/16では、HEART-ViTは最大49.4%のFLOP削減、36%のレイテンシ、6%のスループットを実現している。
理論的ベンチマーク以外にも、AGX Orinのような異なるエッジデバイスにHEART-ViTをデプロイし、FLOPとレイテンシの削減が推論速度とエネルギー効率の実際の向上に直接変換されることを示した。
HEART-ViTは理論と実践のギャップを埋め、精度保存とエッジ効率の両方で最初の統一された曲率駆動型プルーニングフレームワークを提供する。
関連論文リスト
- TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based Computing [12.583079680322156]
本稿では,注目度に基づくViT最適化フレームワークであるTReXを提案する。
We found that TReX achieves 2.3x (2.19x) EDAP reduction and 1.86x (1.79x) TOPS/mm2 improve with 1% accuracy drop in case of DeiT-S (LV-ViT-S) ViT models。
CoLAのようなNLPタスクでは、TReXは、基準線が1.6倍低いEDAPよりも2%高い非理想的精度をもたらす。
論文 参考訳(メタデータ) (2024-08-22T21:51:38Z) - HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Bi-ViT: Pushing the Limit of Vision Transformer Quantization [38.24456467950003]
ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。
本研究では, 学習可能なスケーリング係数を導入して, 消失した勾配を再活性化し, 理論的, 実験的解析によりその効果を実証する。
そこで我々は,教師・学生の枠組みにおいて,障害のあるランキングを正すためのランキングアウェア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:24:43Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。