論文の概要: Patch Pruning Strategy Based on Robust Statistical Measures of Attention Weight Diversity in Vision Transformers
- arxiv url: http://arxiv.org/abs/2507.19175v1
- Date: Fri, 25 Jul 2025 11:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.932918
- Title: Patch Pruning Strategy Based on Robust Statistical Measures of Attention Weight Diversity in Vision Transformers
- Title(参考訳): 視覚変換器の注意重多様性のロバスト統計量に基づくパッチ打抜き戦略
- Authors: Yuki Igaue, Hiroaki Aizawa,
- Abstract要約: 本稿では,複数の注目頭間での注目重みのばらつきに基づいて,各パッチの重要性を評価するパッチプルーニング戦略を提案する。
このアプローチは、特徴表現の異なる部分空間にまたがる多様な注意パターンを捉えることを目的としたマルチヘッド自己注意の設計に着想を得たものである。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head self-attention is a distinctive feature extraction mechanism of vision transformers that computes pairwise relationships among all input patches, contributing significantly to their high performance. However, it is known to incur a quadratic computational complexity with respect to the number of patches. One promising approach to address this issue is patch pruning, which improves computational efficiency by identifying and removing redundant patches. In this work, we propose a patch pruning strategy that evaluates the importance of each patch based on the variance of attention weights across multiple attention heads. This approach is inspired by the design of multi-head self-attention, which aims to capture diverse attention patterns across different subspaces of feature representations. The proposed method can be easily applied during both training and inference, and achieves improved throughput while maintaining classification accuracy in scenarios such as fine-tuning with pre-trained models. In addition, we also found that using robust statistical measures, such as the median absolute deviation in place of variance, to assess patch importance can similarly lead to strong performance. Furthermore, by introducing overlapping patch embeddings, our method achieves better performance with comparable throughput to conventional approaches that utilize all patches.
- Abstract(参考訳): マルチヘッド自己アテンションは視覚変換器の特徴的特徴抽出機構であり、全ての入力パッチ間のペア関係を計算し、高い性能に大きく貢献する。
しかし、パッチの数に関して2次計算の複雑さを生じさせることが知られている。
この問題に対処する1つの有望なアプローチはパッチプルーニングであり、冗長なパッチを特定して削除することで、計算効率を向上させる。
本研究では,複数の注意頭間での注意重みのばらつきに基づいて,各パッチの重要性を評価するパッチプルーニング戦略を提案する。
このアプローチは、特徴表現の異なる部分空間にまたがる多様な注意パターンを捉えることを目的としたマルチヘッド自己注意の設計に着想を得たものである。
提案手法は,トレーニングと推論の両方において容易に適用可能であり,事前学習モデルによる微調整などのシナリオにおいて,分類精度を維持しつつ,スループットの向上を実現している。
また,分散に代えて中央値の絶対偏差などのロバストな統計指標を用いてパッチの重要度を評価することも,同様に高い性能をもたらすことを発見した。
さらに,重なり合うパッチ埋め込みを導入することで,すべてのパッチを利用する従来の手法に匹敵するスループットで性能を向上する。
関連論文リスト
- Focus What Matters: Matchability-Based Reweighting for Local Feature Matching [6.361840891399624]
本稿では,学習可能なバイアス項をアテンションロジットに同時に組み込む新しいアテンション再重み付け機構を提案する。
3つのベンチマークデータセットを用いて実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-05-04T15:50:28Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - MVPatch: More Vivid Patch for Adversarial Camouflaged Attacks on Object Detectors in the Physical World [7.1343035828597685]
我々は、一般化理論を敵対的パッチ(AP)の文脈に導入する。
本稿では、転送性、ステルス性、実用性を向上させるために、DPBF(Dual-Perception-Based Framework)を提案する。
MVPatchは、デジタルドメインと物理ドメインの両方において、優れた転送可能性と自然な外観を実現し、その有効性とステルス性を強調している。
論文 参考訳(メタデータ) (2023-12-29T01:52:22Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。