Fugu-MT 論文翻訳(概要): Round Attention: A Novel Round-Level Attention Mechanism to Accelerate LLM Inference

論文の概要: Round Attention: A Novel Round-Level Attention Mechanism to Accelerate LLM Inference

arxiv url: http://arxiv.org/abs/2502.15294v1
Date: Fri, 21 Feb 2025 08:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.107159
Title: Round Attention: A Novel Round-Level Attention Mechanism to Accelerate LLM Inference
Title（参考訳）: ラウンドアテンション: LLM推論を高速化する新しいラウンドレベルアテンションメカニズム
Authors: Yaohua Tang, Zhicheng Hu, Kun Cheng, Fan Mo, Qiheng Lv, Hua Wang, Zhi Chen,
Abstract要約: 会話ラウンドが続くにつれて、大量のKVキャッシュをGPUメモリに格納する必要がある。我々は,最も関連性の高いラウンドのKVキャッシュをリコールし,計算するラウンドアテンション機構であるラウンドアテンションを提案する。
参考スコア（独自算出の注目度）: 12.300113547413448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing context window size in large language models (LLMs) has improved their ability to handle complex, long-text tasks. However, as the conversation rounds continue, it is required to store a large amount of KV cache in GPU memory, which significantly affects the efficiency and even availability of the model serving systems. This paper analyzes dialogue data from real users and discovers that the LLM inference manifests a watershed layer, after which the distribution of round-level attention shows notable similarity. We propose Round Attention, a novel round-level attention mechanism that only recalls and computes the KV cache of the most relevant rounds. The experiments show that our method saves 55\% memory usage without compromising model performance.
Abstract（参考訳）: 大きな言語モデル(LLM)におけるコンテキストウィンドウサイズの増加により、複雑な長文タスクを処理する能力が改善された。しかし、会話ラウンドが続くにつれて、大量のKVキャッシュをGPUメモリに格納する必要がある。本稿では,実際のユーザからの対話データを解析し,LLM推論が流域層を示し,その後にラウンドレベルの注目の分布が顕著な類似性を示すことを示す。我々は,最も関連性の高いラウンドのKVキャッシュをリコールし,計算するラウンドアテンション機構であるラウンドアテンションを提案する。実験の結果,提案手法はモデル性能を損なうことなく,55%のメモリ使用量を削減できることがわかった。

関連論文リスト

Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-03-31T11:13:18Z)
WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。 WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文参考訳（メタデータ） (2025-03-23T03:36:52Z)
Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Inference-Friendly Models With MixAttention [7.103010772135246]
MixAttentionは、最近のトークンの小さなサブセットだけをKVキャッシュに格納するスライディングウィンドウアテンションと、レイヤ間のKVキャッシュ共有を組み合わせたものだ。実験により,MixAttentionはメモリ使用量を大幅に削減し,短文タスクと長文タスクの両方においてモデル性能を犠牲にすることなく推論速度を向上することを示した。
論文参考訳（メタデータ） (2024-09-23T13:37:25Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。