論文の概要: Unshackling Context Length: An Efficient Selective Attention Approach through Query-Key Compression
- arxiv url: http://arxiv.org/abs/2502.14477v1
- Date: Thu, 20 Feb 2025 11:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:04.088957
- Title: Unshackling Context Length: An Efficient Selective Attention Approach through Query-Key Compression
- Title(参考訳): コンテキスト長のアンシャックリング:クエリキー圧縮による効率的な選択的注意アプローチ
- Authors: Haoyu Wang, Tong Teng, Tianyu Guo, An Xiao, Duyu Tang, Hanting Chen, Yunhe Wang,
- Abstract要約: 効率的な選択注意(Efficient Selective Attention, ESA)は、トークンレベルで最も重要なトークンを効率的に選択することで、注意力を計算する新しいアプローチである。
コンテクスト長8k,32kのオープンソースLLMを用いて,最大256kまでの長周期ベンチマークでESAを評価した。
- 参考スコア(独自算出の注目度): 40.37188244460367
- License:
- Abstract: Handling long-context sequences efficiently remains a significant challenge in large language models (LLMs). Existing methods for token selection in sequence extrapolation either employ a permanent eviction strategy or select tokens by chunk, which may lead to the loss of critical information. We propose Efficient Selective Attention (ESA), a novel approach that extends context length by efficiently selecting the most critical tokens at the token level to compute attention. ESA reduces the computational complexity of token selection by compressing query and key vectors into lower-dimensional representations. We evaluate ESA on long sequence benchmarks with maximum lengths up to 256k using open-source LLMs with context lengths of 8k and 32k. ESA outperforms other selective attention methods, especially in tasks requiring the retrieval of multiple pieces of information, achieving comparable performance to full-attention extrapolation methods across various tasks, with superior results in certain tasks.
- Abstract(参考訳): 長文シーケンスを効率的に処理することは、大規模言語モデル(LLM)において重要な課題である。
シーケンス外挿におけるトークン選択の既存の方法は、恒久的な消去戦略を採用するか、チャンクごとにトークンを選択するかのいずれかであり、クリティカルな情報が失われる可能性がある。
本稿では,トークンレベルで最も重要なトークンを効率よく選択して注目度を計算することによって,コンテキスト長を拡張する新しいアプローチである,効率的な選択注意(ESA)を提案する。
ESAは、クエリとキーベクトルを低次元表現に圧縮することで、トークン選択の計算複雑性を低減する。
コンテクスト長8k,32kのオープンソースLLMを用いて,最大256kまでの長周期ベンチマークでESAを評価した。
ESAは、特に複数の情報の検索を必要とするタスクにおいて、様々なタスクにおけるフルアテンション補間手法に匹敵するパフォーマンスを達成し、特定のタスクにおいて優れた結果を得るなど、他の選択的な注意法よりも優れています。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
選択トークン保持やウィンドウベースアテンションを含む既存の手法では、効率は向上するが、将来のテキスト生成に必要な重要なトークンを破棄するリスクがある。
トークンを破棄するのではなく、重要でないトークンのメモリと計算負荷を削減し、トークンロスを伴わずにLCM効率を向上させるアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.20856449846164]
TokenSelectは、モデルに依存しない、訓練のない、効率的で正確な長文推論手法である。
TokenSelectの総合評価では、注意点の最大23.84倍、エンドツーエンドのレイテンシの最大2.28倍の高速化が示されている。
論文 参考訳(メタデータ) (2024-11-05T07:56:24Z) - Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。
また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。
提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文 参考訳(メタデータ) (2024-10-05T15:59:32Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。