論文の概要: Efficient Attention via Pre-Scoring: Prioritizing Informative Keys in Transformers
- arxiv url: http://arxiv.org/abs/2505.11040v1
- Date: Fri, 16 May 2025 09:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.482884
- Title: Efficient Attention via Pre-Scoring: Prioritizing Informative Keys in Transformers
- Title(参考訳): プリスコリングによる効率的な注意:変圧器のインフォーマティブキーの優先順位付け
- Authors: Zhexiang Li, Haoyu Wang, Yutong Bao, David Woodruff,
- Abstract要約: HyperAttentionは、単一レベルのLSHベースのクラスタリングと均一な残留サンプリングを組み合わせることで、競争効率を達成する。
本稿では,HyperAttentionが重要なキーの優先順位付けに役立てる前処理機構を提案する。
ChatGLM2(131kトークンコンテキスト)の実験では、コンプレックスが12から8.3に減少し、標準のHyperAttentionを上回っている。
- 参考スコア(独自算出の注目度): 3.7396758752358465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in transformer architectures deeply enhance long-context language modeling. Among them, HyperAttention achieves competitive efficiency by combining a single-level LSH-based clustering with uniform residual sampling. However,such a sampling limits crucial keys' capturing, which in turn raises the overall perplexity. In this paper, we propose a pre-scoring mechanism to assist HyperAttention to prioritize significant keys. Specifically, we introduce three scoring methods: K-means clustering, K-median clustering, and leverage score-based ranking (inspired by LevAttention) to filter keys effectively. We further replace HyperAttention's original uniform residual sampling entirely, relying exclusively on our pre-scoring mechanism. Experiments on ChatGLM2 (131k token context) reduce perplexity from 12 to 8.3, which outperforms standard HyperAttention. Moreover, when running on the Vision-Transformer (ViT), our method shows that it can guarantee similar accuracy compared with LevAttention, and will surpass LevAttention given specific parameters. Although this method introduces computational overhead, its combination with HyperAttention remains 20 times faster than FlashAttention, providing a balanced trade-off between speed and modeling accuracy. Our results highlight the effectiveness of integrating pre-scoring into hierarchical attention mechanisms, significantly improving Transformer's efficiency.
- Abstract(参考訳): トランスフォーマーアーキテクチャの最近の進歩は、長文言語モデリングを深く強化している。
中でもHyperAttentionは、シングルレベルLSHベースのクラスタリングと一様残留サンプリングを組み合わせることで、競争効率を達成する。
しかし、このようなサンプリングは重要なキーのキャプチャを制限し、結果として全体的な難易度を上昇させる。
本稿では,HyperAttentionが重要なキーの優先順位付けに役立てる前処理機構を提案する。
具体的には、K平均クラスタリング、K中間クラスタリング、スコアベースのランキング(LevAttentionにインスパイアされた)の3つのスコアリング手法を導入し、キーを効果的にフィルタリングする。
我々は、HyperAttentionの元々の均一な残留サンプリングを完全に置き換える。
ChatGLM2(131kトークンコンテキスト)の実験では、コンプレックスが12から8.3に減少し、標準のHyperAttentionを上回っている。
さらに、ViT(Vision-Transformer)上での動作では、LevAttentionと同等の精度が保証され、特定のパラメータが与えられた場合、LevAttentionを超越することを示す。
この手法は計算オーバーヘッドを導入するが、HyperAttentionとの組合せはFlashAttentionの20倍の速度であり、速度とモデリング精度のバランスのとれたトレードオフを提供する。
提案手法は,プレスコリングを階層型アテンション機構に統合し,トランスフォーマーの効率を大幅に向上させる効果を示した。
関連論文リスト
- Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Q&C: When Quantization Meets Cache in Efficient Image Generation [24.783679431414686]
拡散変換器(DiT)の量子化とキャッシュ機構の組み合わせは簡単ではない。
本稿では,上記の課題に対処してハイブリッド加速法を提案する。
競合生成能力を保ちながら,DiTsを12.7倍高速化した。
論文 参考訳(メタデータ) (2025-03-04T11:19:02Z) - More for Keys, Less for Values: Adaptive KV Cache Quantization [59.708443710731146]
本稿では,大規模言語モデルにおけるキー値キャッシュを適応的に圧縮する情報認識量子化フレームワークを提案する。
鍵行列が常に高いノルム値を示し、値行列よりも量子化に敏感であることを示す。
我々は、鍵のビット幅を多く割り当て、値のビット幅を小さくする混合精度量子化戦略KV-AdaQuantを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding [1.6112718683989882]
我々は、注意要素を慎重に調整された閾値と比較することによって、重要でない注意要素を選択的に抽出するTop-theta Attention(Top-theta$)を導入する。
モデル精度を保ちながら自己注意行列乗算の効率を大幅に向上する。
トップkとは異なり、Top-$theta$は全ベクター依存を排除し、タイリングとスケールアウトに適し、コストのかかるトップk検索を避ける。
論文 参考訳(メタデータ) (2025-02-12T12:50:15Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - Efficient Linear Attention for Fast and Accurate Keypoint Matching [0.9699586426043882]
近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。
しかし、これらの変換器は、注意機構の2次計算の複雑さのために効率を欠いている。
本稿では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。
論文 参考訳(メタデータ) (2022-04-16T06:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。