論文の概要: From Sparsity to Simplicity: Enabling Simpler Sequential Replacements via Sparse Attention Distillation
- arxiv url: http://arxiv.org/abs/2605.18865v1
- Date: Fri, 15 May 2026 07:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.749857
- Title: From Sparsity to Simplicity: Enabling Simpler Sequential Replacements via Sparse Attention Distillation
- Title(参考訳): 空間から単純へ:スパース留置蒸留によるより簡易なシーケンス置換法
- Authors: Yuxin Ren, Maxwell D Collins, Miao Hu, Huanrui Yang,
- Abstract要約: 自己注意は、大規模なトランスフォーマー事前訓練の基盤となるが、その二次トークン相互作用コストは推論コストを高くする。
より単純なシーケンシャルなモジュールで注意を引くことは魅力的であるが、特に大規模では、単純な置換がしばしば失われる。
本稿では,空間レンズによる注目の代替について再検討する。
- 参考スコア(独自算出の注目度): 10.58477116337273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention serves as the core foundation of large-scale transformer pretraining, but its quadratic token interaction cost makes inference expensive. Replacing attention with simpler sequential modules is appealing, yet naive substitution is often lossy, especially at larger scales. This paper revisits attention replacement through the lens of sparsity. Based on the observation of diverse sparsity patterns across transformer layers, we posit that pretrained transformers decompose the complex token dependency across tokens into various sequence-to-sequence mappings of diverse complexities, where some layer functionalities can be approximated and replaced with much simpler sequential modules without loss. We evaluate this premise using a plug-and-play layer-wise distillation framework to approximate and replace attention functionalities in pretrained vision transformer models. Controlled group-wise replacements under a fixed training budget reveal a clear pattern: substituting layers with sparser attention incurs substantially smaller accuracy drops than replacing denser ones. We further impose explicit attention sparsity on the pretrained ViT via AViT-style token retention and perform sparsity-guided distillation for sequential replacing models, where we see increasing teacher sparsity consistently reduces the student-teacher gap. The proposed method achieves efficient attention replacement for reduced parameter size and latency through the guidance of attention sparsity.
- Abstract(参考訳): 自己注意は大規模トランスプリトレーニングの中核となるが、その二次トークン相互作用コストは推論コストを高くする。
より単純なシーケンシャルなモジュールで注意を引くことは魅力的であるが、特に大規模では、単純な置換がしばしば失われる。
本稿では,空間レンズによる注目の代替について再検討する。
変換器層にまたがる多彩なスパーシティパターンの観察から、事前訓練されたトランスフォーマーはトークン間の複雑なトークン依存性を様々な複雑度のシーケンス・ツー・シーケンスマッピングに分解し、いくつかの層機能を近似し、損失のないより単純な逐次モジュールに置き換えることができると仮定する。
この前提をプラグアンドプレイ層ワイド蒸留フレームワークを用いて評価し,事前学習した視覚トランスモデルの注意機能を近似し,置き換える。
固定トレーニング予算の下で制御されたグループワイズ置換は明確なパターンを示しており、スペーサーの注意を持つ層を置換すると、より密度の高いものを置き換えるよりもかなり精度が低下する。
さらに、AViT方式のトークン保持により事前訓練されたViTに明らかな空白度を課し、逐次置換モデルに対する空白度誘導蒸留を行い、教師の空白度が常に学生と教師のギャップを減少させることを示した。
提案手法は,アテンション間隔の誘導により,パラメータサイズと遅延の低減に有効なアテンション置換を実現する。
関連論文リスト
- Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - Sparse Attention Post-Training for Mechanistic Interpretability [55.030850996535776]
本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約された余剰目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、初期トレーニング損失を抑えつつ、注意接続性を$approx 0.3 %に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-12-05T16:40:08Z) - Integral Transformer: Denoising Attention, Not Too Much Not Too Little [22.670315809624466]
ソフトマックスの自己注意は、特別なトークンや句読点のような意味的に非形式的なトークンに不均等な重みを割り当てる。
本稿では,ロジット分布からサンプリングした信号を統合することで注意を喚起する新しい自己認識機構であるIntegral Transformerを提案する。
提案手法は, モデル性能に重要な特別なトークンの寄与を保ちながら, ノイズを緩和する。
論文 参考訳(メタデータ) (2025-08-25T18:19:21Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。