論文の概要: Ltri-LLM: Streaming Long Context Inference for LLMs with Training-Free Dynamic Triangular Attention Pattern
- arxiv url: http://arxiv.org/abs/2412.04757v1
- Date: Fri, 06 Dec 2024 03:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:31.724218
- Title: Ltri-LLM: Streaming Long Context Inference for LLMs with Training-Free Dynamic Triangular Attention Pattern
- Title(参考訳): Ltri-LLM: 学習自由な動的三角形アテンションパターンを用いたLLMの長コンテキスト推論
- Authors: Hongyin Tang, Di Xiu, Lanrui Wang, Xiurui Geng, Jingang Wang, Xunliang Cai,
- Abstract要約: 我々は,KVをスパンに分割し,それらをオフラインインデックスに格納し,関連するKVをメモリに格納するLtri-LLMフレームワークを提案する。
一般的な長文ベンチマークによる実験結果から,Ltri-LLMは効率のよいストリーミングベース推論を維持しつつ,FAに近い性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 13.314424072207379
- License:
- Abstract: The quadratic computational complexity of the attention mechanism in current Large Language Models (LLMs) renders inference with long contexts prohibitively expensive. To address this challenge, various approaches aim to retain critical portions of the context to optimally approximate Full Attention (FA) through Key-Value (KV) compression or Sparse Attention (SA), enabling the processing of virtually unlimited text lengths in a streaming manner. However, these methods struggle to achieve performance levels comparable to FA, particularly in retrieval tasks. In this paper, our analysis of attention head patterns reveals that LLMs' attention distributions show strong local correlations, naturally reflecting a chunking mechanism for input context. We propose Ltri-LLM framework, which divides KVs into spans, stores them in an offline index, and retrieves the relevant KVs into memory for various queries. Experimental results on popular long text benchmarks show that Ltri-LLM can achieve performance close to FA while maintaining efficient, streaming-based inference.
- Abstract(参考訳): 現在のLarge Language Models (LLMs) における注意機構の2次計算の複雑さは、長い文脈での推論を違法に高価にしている。
この課題に対処するために、さまざまなアプローチは、キーバリュー圧縮(KV)またはスパースアテンション(SA)を通じて全アテンション(FA)を最適に近似するためにコンテキストの重要な部分を維持することを目的としており、ストリーミング方式で事実上無制限のテキスト長の処理を可能にする。
しかし、これらの手法は、特に検索タスクにおいて、FAに匹敵するパフォーマンスレベルを達成するのに苦労している。
本稿では,LLMの注意分布が強い局所相関を示し,入力コンテキストのチャンキング機構を自然に反映していることを明らかにする。
我々は,KVをスパンに分割し,それらをオフラインインデックスに格納し,関連するKVをメモリに格納するLtri-LLMフレームワークを提案する。
一般的な長文ベンチマークによる実験結果から,Ltri-LLMは効率のよいストリーミングベース推論を維持しつつ,FAに近い性能を達成できることが示された。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression [37.08536175557748]
本稿では,新しいQuery-gUIded aTtention cOmpression (QUITO)法を提案する。
具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。
本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。
論文 参考訳(メタデータ) (2024-08-01T04:28:38Z) - Beyond KV Caching: Shared Attention for Efficient LLMs [5.801044612920816]
本稿では,大規模言語モデル(LLM)の効率を高めるための新しい共有注意機構を提案する。
提案手法は,先進LLMにおいて観測される注意分布の等方性傾向を利用して,予測に必要な計算フロップとKVキャッシュのサイズを減少させる。
以上の結果から,SAは計算資源の保存だけでなく,頑健なモデル性能も維持し,資源制約環境におけるより効率的なLCMの展開を容易にすることが示唆された。
論文 参考訳(メタデータ) (2024-07-13T07:23:07Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。