論文の概要: ASAP: Attention Sink Anchored Pruning
- arxiv url: http://arxiv.org/abs/2605.22372v1
- Date: Thu, 21 May 2026 12:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.560847
- Title: ASAP: Attention Sink Anchored Pruning
- Title(参考訳): ASAP:アテンションシンクアンチョレッドプルーニング
- Authors: Jaehyuk Lee, Hanyoung Kim, Yanggee Kim, Donghun Lee,
- Abstract要約: 視覚変換器(ViT)は、高解像度での自己注意の二次的な複雑さのために、深刻な計算ボトルネックに直面している。
我々は,このシンクを機能として再キャストするトレーニングフリーフレームワークであるASAP(Attention Sink Anchored Pruning)を提案する。
ASAPは最先端の手法より優れ、スループットは最大48%向上し、ベースライン精度は維持する(あるいは超える)。
- 参考スコア(独自算出の注目度): 6.733624379034146
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision Transformers (ViTs) face severe computational bottlenecks due to the quadratic complexity of self-attention at high resolutions. Existing token reduction methods rely on local metrics - such as single-layer attention scores - that are inherently vulnerable to the attention sink phenomenon, where uninformative tokens are paradoxically preserved over salient foreground objects. We propose ASAP (Attention Sink Anchored Pruning), a training-free framework that recasts this sink as a feature. Modeling ViT information flow as a Lazy Random Walk, ASAP identifies the sink as a dominant accumulator of probability mass. By computing the diffusion distance to the sink within the cumulative transition matrix, ASAP partitions tokens via Radial Diffusion Clustering and compresses background redundancy through Transition Weight Pooling in a single shot. Extensive experiments across image, video, and vision-language tasks demonstrate ASAP outperforms state-of-the-art methods, accelerating throughput by up to 48% while maintaining - or even exceeding - baseline accuracy.
- Abstract(参考訳): 視覚変換器(ViT)は、高解像度での自己注意の二次的な複雑さのために、深刻な計算ボトルネックに直面している。
既存のトークン削減手法は、単層アテンションスコアのような局所的なメトリクスに依存しており、これは本質的にアテンションシンク現象に弱い。
我々は,このシンクを機能として再キャストするトレーニングフリーフレームワークであるASAP(Attention Sink Anchored Pruning)を提案する。
ラジランダムウォークとしてViT情報の流れをモデル化し、ASAPはシンクを確率質量の支配的なアキュムレータとして認識している。
累積遷移行列内のシンクへの拡散距離を計算することにより、ASAPはラジアル拡散クラスタリングを介してトークンを分割し、トランジションウェイトプールを1ショットで圧縮する。
画像、ビデオ、ビジョン言語タスクにわたる大規模な実験は、ASAPが最先端の手法より優れており、スループットを最大48%向上させ、ベースライン精度を維持しながら、最大で48%向上していることを示している。
関連論文リスト
- Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。
既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。
そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:15:59Z) - Decoupled Similarity for Task-Aware Token Pruning in Large Vision-Language Models [73.07332521794093]
トケンプルーニングは、大規模ビジョンランゲージモデルの計算オーバーヘッドを大幅に削減する効果的な手法として登場した。
視覚エンコーダ内でのタスク認識トークンのプルーニングを正確に行うためのデカップリング型類似性認識型プルーニング手法であるDeSAPを提案する。
DeSAPはSOTA法を精度と効率の両方で一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-13T09:44:52Z) - RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference [26.71949723961501]
本稿では,新しいトレーニングフリーなKVキャッシュ対応プルーニングレシピであるASAPを提案する。
ダイナミックな双方向ソフトアテンションマスクを利用することで、アテンションシフトを緩和する。
また、トークンセット内の高い意味的冗長性は性能を低下させると仮定する。
論文 参考訳(メタデータ) (2026-03-15T18:51:31Z) - Unbiased Gradient Estimation for Event Binning via Functional Backpropagation [64.88399635309918]
バックプロパゲーション中に弱微分を合成することにより任意の双対関数の非バイアス勾配推定のための新しいフレームワークを提案する。
自己監督型光流ではECEが9.4%,SLAMでは5.1%低下し,事象に基づく視覚知覚において大きなメリットが示された。
論文 参考訳(メタデータ) (2026-02-13T04:05:03Z) - One Token Is Enough: Improving Diffusion Language Models with a Sink Token [9.076240488230274]
拡散言語モデル (DLMs) は自己回帰的アプローチの魅力的な代替手段として登場した。
DLMには、動くシンク現象という重要な不安定性がある。
改良されたアテンションマスクによって実装された簡易だが効果的な余剰シンクトークンを提案する。
論文 参考訳(メタデータ) (2026-01-27T14:32:36Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Focus of Attention Improves Information Transfer in Visual Features [80.22965663534556]
本稿では,真のオンライン環境下での視覚情報伝達のための教師なし学習に焦点を当てた。
エントロピー項の計算は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。
入力確率分布をよりよく構成するために,人間のような注目モデルを用いる。
論文 参考訳(メタデータ) (2020-06-16T15:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。