論文の概要: Frequency-Aware Token Reduction for Efficient Vision Transformer
- arxiv url: http://arxiv.org/abs/2511.21477v1
- Date: Wed, 26 Nov 2025 15:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.156948
- Title: Frequency-Aware Token Reduction for Efficient Vision Transformer
- Title(参考訳): 能動型視覚変換器の周波数対応トケ低減
- Authors: Dong-Jae Lee, Jiwan Hur, Jaehyun Choi, Jaemyung Yu, Junmo Kim,
- Abstract要約: 視覚変換器の周波数対応トークン削減戦略を提案する。
本手法では,トークンを高周波トークンと低周波トークンに分割する。
本手法は計算オーバーヘッドを低減しつつ精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 21.328541977404978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have demonstrated exceptional performance across various computer vision tasks, yet their quadratic computational complexity concerning token length remains a significant challenge. To address this, token reduction methods have been widely explored. However, existing approaches often overlook the frequency characteristics of self-attention, such as rank collapsing and over-smoothing phenomenon. In this paper, we propose a frequency-aware token reduction strategy that improves computational efficiency while preserving performance by mitigating rank collapsing. Our method partitions tokens into high-frequency tokens and low-frequency tokens. high-frequency tokens are selectively preserved, while low-frequency tokens are aggregated into a compact direct current token to retain essential low-frequency components. Through extensive experiments and analysis, we demonstrate that our approach significantly improves accuracy while reducing computational overhead and mitigating rank collapsing and over smoothing. Furthermore, we analyze the previous methods, shedding light on their implicit frequency characteristics and limitations.
- Abstract(参考訳): 視覚変換器は様々なコンピュータビジョンタスクに対して例外的な性能を示してきたが、トークン長に関する2次計算の複雑さは依然として大きな課題である。
これを解決するために、トークン還元法が広く研究されている。
しかし、既存のアプローチは、ランク崩壊や過度なスムーシング現象のような自己注意の周波数特性をしばしば見落としている。
本稿では、ランク崩壊を緩和し、性能を保ちながら、計算効率を向上する周波数対応トークン削減戦略を提案する。
本手法では,トークンを高周波トークンと低周波トークンに分割する。
高周波トークンは選択的に保存され、低周波トークンは必須の低周波成分を保持するために、コンパクトな直流トークンに集約される。
広範囲な実験と解析により,計算オーバーヘッドを低減し,ランクの崩壊と過度な平滑化を緩和し,精度を著しく向上することを示した。
さらに,従来の手法を解析し,その暗黙の周波数特性と限界について光を当てる。
関連論文リスト
- THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening [11.026691195419453]
トランスフォーマーに基づく手法は、高スペクトルパンシャーピングにおいて強い可能性を証明している。
それらの効果は、冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
本稿では,高スペクトルパンシャーピングを向上する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
論文 参考訳(メタデータ) (2025-08-11T17:03:10Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文 参考訳(メタデータ) (2025-07-21T19:29:03Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance [0.48342038441006796]
We apply token pruning to ViT-based audio classification model using Mel-spectrograms。
パッチ内の信号の強度や変動にのみ基づくプルーニングは、顕著な精度低下につながることを示す。
論文 参考訳(メタデータ) (2025-04-02T12:44:38Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study [44.170933007736984]
VLM(Vision-Language Models)は、実用的展開において強力だが計算集約的な手法である。
現在のアクセラレーション評価は主に、重要な問題を見越して、パフォーマンスの最小限のパフォーマンス劣化を目標としています。
これは、AIベースの疾患診断のように、特定の既知の状況に対して常に正しい回答が最重要である、安定性中心の産業アプリケーションにとって不可欠である。
論文 参考訳(メタデータ) (2025-03-09T22:16:48Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。