Fugu-MT 論文翻訳(概要): Inference-time sparse attention with asymmetric indexing

論文の概要: Inference-time sparse attention with asymmetric indexing

arxiv url: http://arxiv.org/abs/2502.08246v1
Date: Wed, 12 Feb 2025 09:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.933637
Title: Inference-time sparse attention with asymmetric indexing
Title（参考訳）: 非対称インデクシングによる推論時スパースアテンション
Authors: Pierre-Emmanuel Mazaré, Gergely Szilvasy, Maria Lomeli, Francisco Massa, Naila Murray, Hervé Jégou, Matthijs Douze,
Abstract要約: トランスモデルの自己アテンションは、キーベクトルを値ベクトルにマッピングするインクリメンタルな連想メモリである。標準的なパーティショニング手法は、この文脈では不十分な結果をもたらす。これらの問題を克服するSAAP(Self-Attention with Asymmetric Partitions)を導入する。
参考スコア（独自算出の注目度）: 23.305984099821618
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-attention in transformer models is an incremental associative memory that maps key vectors to value vectors. One way to speed up self-attention is to employ GPU-compliant vector search algorithms, yet the standard partitioning methods yield poor results in this context, because (1) keys and queries follow different distributions and (2) the effect of RoPE positional encoding. In this paper, we introduce SAAP (Self-Attention with Asymmetric Partitions), which overcomes these problems. It is an asymmetrical indexing technique that employs distinct partitions for keys and queries, thereby approximating self-attention with a data-adaptive sparsity pattern. It works on pretrained language models without finetuning, as it only requires to train (offline) a small query classifier. On a long context Llama 3.1-8b model, with sequences ranging from 100k to 500k tokens, our method typically reduces by a factor 20 the fraction of memory that needs to be looked-up, which translates to a time saving of 60\% when compared to FlashAttention-v2.
Abstract（参考訳）: トランスモデルの自己アテンションは、キーベクトルを値ベクトルにマッピングするインクリメンタルな連想メモリである。自己注意の高速化の1つの方法は、GPUに準拠するベクトル探索アルゴリズムを採用することであるが、標準的なパーティショニング手法では、(1)キーとクエリが異なる分布に従うこと、(2)RoPE位置符号化の効果のため、この文脈では不十分な結果が得られる。本稿では,これらの問題を克服するSAAP(Self-Attention with Asymmetric Partitions)を紹介する。非対称な索引付け手法で、キーとクエリのパーティションを区別し、データ適応型スパーシティパターンで自己アテンションを近似する。これは、小さなクエリ分類器を訓練(オフライン)するだけで、微調整なしで事前訓練された言語モデルで動作する。 Llama 3.1-8bの長いコンテキストでは、100kから500kのトークンのシーケンスで、通常、検索が必要なメモリの割合を20に減らし、FlashAttention-v2と比較して60倍の時間を節約します。

関連論文リスト

Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding [7.142158555793151]
大規模言語モデル(LLM)は、より長いコンテキストをサポートし続ける。復号化時のキーバリューキャッシュのメモリ需要は急速に増大する。スパースアテンション機構は、選択されたキー値対に対してのみ注意重みを計算することでこの問題を軽減する。既存の方法は、各デコードステップを独立したプロセスとして扱うことが多い。本研究では,過去の注目パターンに基づいて,スパースインデックス化候補を動的に構築する高速化手法LFPSを提案する。
論文参考訳（メタデータ） (2025-05-30T02:35:59Z)
A system identification approach to clustering vector autoregressive time series [50.66782357329375]
基礎となる力学に基づく時系列のクラスタ化は、複雑なシステムモデリングを支援するために研究者を惹きつけている。現在の時系列クラスタリング手法のほとんどは、スカラー時系列のみを処理し、ホワイトノイズとして扱うか、高品質な特徴構築のためにドメイン知識に依存している。システム識別アプローチは、機能/測定構造に頼るのではなく、基礎となる自己回帰力学を明示的に考慮することで、ベクトル時系列クラスタリングを処理できる。
論文参考訳（メタデータ） (2025-05-20T14:31:44Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference [21.47425403468577]
SpargeAttnは任意のモデルに対する普遍的スパースで量子化された注意である。本手法は,エンドツーエンドのメトリクスを犠牲にすることなく,言語,画像,ビデオ生成などの多様なモデルを大幅に高速化する。
論文参考訳（メタデータ） (2025-02-25T12:02:17Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。 RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文参考訳（メタデータ） (2024-09-16T17:59:52Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Breaking the Attention Bottleneck [0.0]
本稿では,注意やアクティベーションの代替として生成機能を開発する。それぞれのトークンと前のトークンを比較することで、自動回帰文字を持つ。注意の置き換えという概念は、https://gitlab.com/Bachstelzecausal_generationでAGPL v3ライセンスの下で配布されている。
論文参考訳（メタデータ） (2024-06-16T12:06:58Z)
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文参考訳（メタデータ） (2024-02-23T09:29:19Z)
Similarity search in the blink of an eye with compressed indices [3.39271933237479]
グラフベースのインデックスは現在、数十億の類似性検索において、最高のパフォーマンス技術である。より高速でより小さなグラフベースのインデックスを作成するための新しい手法とシステムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:10:39Z)
CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文参考訳（メタデータ） (2022-11-18T18:27:35Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Injecting Domain Adaptation with Learning-to-hash for Effective and Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文参考訳（メタデータ） (2022-05-23T17:53:44Z)
Learning Tracking Representations via Dual-Branch Fully Transformer Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文参考訳（メタデータ） (2021-12-05T13:44:33Z)
You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling [38.34914626128062]
本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
論文参考訳（メタデータ） (2021-11-18T14:24:34Z)
IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文参考訳（メタデータ） (2021-03-17T23:13:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。