論文の概要: Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding
- arxiv url: http://arxiv.org/abs/2502.08363v1
- Date: Wed, 12 Feb 2025 12:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:14.586746
- Title: Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding
- Title(参考訳): トップテータ注意:補償閾値によるスポーリング変換器
- Authors: Konstantin Berestizshevsky, Renzo Andri, Lukas Cavigelli,
- Abstract要約: 我々は、注意要素を慎重に調整された閾値と比較することによって、重要でない注意要素を選択的に抽出するTop-theta Attention(Top-theta$)を導入する。
モデル精度を保ちながら自己注意行列乗算の効率を大幅に向上する。
トップkとは異なり、Top-$theta$は全ベクター依存を排除し、タイリングとスケールアウトに適し、コストのかかるトップk検索を避ける。
- 参考スコア(独自算出の注目度): 1.6112718683989882
- License:
- Abstract: The attention mechanism is essential for the impressive capabilities of transformer-based Large Language Models (LLMs). However, calculating attention is computationally intensive due to its quadratic dependency on the sequence length. We introduce a novel approach called Top-Theta Attention, or simply Top-$\theta$, which selectively prunes less essential attention elements by comparing them against carefully calibrated thresholds. This method greatly improves the efficiency of self-attention matrix multiplication while preserving model accuracy, reducing the number of required V cache rows by 3x during generative decoding and the number of attention elements by 10x during the prefill phase. Our method does not require model retraining; instead, it requires only a brief calibration phase to be resilient to distribution shifts, thus not requiring the thresholds for different datasets to be recalibrated. Unlike top-k attention, Top-$\theta$ eliminates full-vector dependency, making it suitable for tiling and scale-out and avoiding costly top-k search. A key innovation of our approach is the development of efficient numerical compensation techniques, which help preserve model accuracy even under aggressive pruning of attention scores.
- Abstract(参考訳): 注意機構は、トランスフォーマーベースの大規模言語モデル(LLM)の印象的な機能に不可欠である。
しかし、注意力の計算は、シーケンス長に二次的な依存があるため、計算集約的である。
我々はTop-Theta Attention(Top-$\theta$)と呼ばれる新しいアプローチを導入する。
モデル精度を維持しながら自己注意行列乗算の効率を大幅に向上し、生成復号時に所要のVキャッシュ列数を3倍、プリフィル時に注目要素数を10倍削減する。
本手法では, モデル再トレーニングは必要とせず, 分散シフトに回復するためには, 短時間のキャリブレーションフェーズしか必要とせず, 異なるデータセットに対するしきい値の調整は不要である。
トップkと異なり、Top-$\theta$は全ベクター依存を排除し、タイリングとスケールアウトに適し、コストのかかるトップk検索を避ける。
提案手法の重要な革新は,アテンションスコアのアグレッシブプルーニングの下でも,モデル精度の維持を支援する,効率的な数値補償手法の開発である。
関連論文リスト
- Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文 参考訳(メタデータ) (2024-12-04T11:05:01Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - On the Distribution, Sparsity, and Inference-time Quantization of
Attention Values in Transformers [13.401707395755746]
NLPタスクに必要な典型的な注意値の全範囲について検討する。
注意値の80%近くは、最小限(1.0%$)の精度でゼロにプルーニングできる。
我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。
論文 参考訳(メタデータ) (2021-06-02T17:45:47Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。