論文の概要: D2O:Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.13035v1
- Date: Tue, 18 Jun 2024 20:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:18:18.510399
- Title: D2O:Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models
- Title(参考訳): D2O:大規模言語モデルの効率的な生成推定のための動的識別操作
- Authors: Zhongwei Wan, Xinjian Wu, Yu Zhang, Yi Xin, Chaofan Tao, Zhihong Zhu, Xin Wang, Siqi Luo, Jing Xiong, Mi Zhang,
- Abstract要約: LLM(Large Language Models)における効率的な推論は、キー値(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、コンテキスト損失や幻覚などの問題を引き起こす。
本稿では,KVキャッシュサイズを微調整せずに最適化するための2段階判別手法である動的識別操作(D2O)を紹介する。
- 参考スコア(独自算出の注目度): 14.665924387149014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient inference in Large Language Models (LLMs) is impeded by the growing memory demands of key-value (KV) caching, especially for longer sequences. Traditional KV cache eviction strategies, which prioritize less critical KV-pairs based on attention scores, often degrade generation quality, leading to issues such as context loss or hallucinations. To address this, we introduce Dynamic Discriminative Operations (D2O), a novel method that utilizes two-level discriminative strategies to optimize KV cache size without fine-tuning, while preserving essential context. Initially, by observing varying densities of attention weights between shallow and deep layers, we use this insight to determine which layers should avoid excessive eviction to minimize information loss. Subsequently, for the eviction strategy in each layer, D2O innovatively incorporates a compensation mechanism that maintains a similarity threshold to re-discriminate the importance of previously discarded tokens, determining whether they should be recalled and merged with similar tokens. Our approach not only achieves significant memory savings and enhances inference throughput by more than 3x but also maintains high-quality long-text generation. Extensive experiments across various benchmarks and LLM architectures have demonstrated that D2O significantly enhances performance with a constrained KV cache budget.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的な推論は、特に長いシーケンスにおいてキー値(KV)キャッシングのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、しばしば生成品質を低下させ、コンテキスト損失や幻覚などの問題を引き起こす。
そこで本稿では,KVキャッシュサイズを微調整せずに最適化する2段階判別手法であるDynamic Discriminative Operations (D2O)を紹介する。
当初、浅い層と深い層の間の様々な注意重みを観測することで、情報損失を最小限に抑えるために、どの層が過剰な排除を避けるべきかを判断するためにこの洞察を用いています。
その後、各層における排除戦略について、D2Oは、類似性のしきい値を維持するための補償機構を革新的に組み込んで、捨てられたトークンの重要性を再認識し、それらがリコールされ、類似のトークンとマージされるべきかどうかを判断する。
提案手法はメモリの大幅な節約と推論スループットを3倍以上に向上するだけでなく,高品質な長文生成も維持する。
様々なベンチマークやLLMアーキテクチャによる大規模な実験により、D2OはKVキャッシュの予算を制限して性能を大幅に向上することを示した。
関連論文リスト
- ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression [29.163757099307553]
大型視覚言語モデル(LVLM)のための効率的な推論フレームワークZipVLを提案する。
ZipVLは重要なトークンの動的比割り当て戦略によって計算とメモリのボトルネックを解消する。
実験によると、ZipVLはプリフィルフェーズを2.6$times$で加速し、GPUメモリ使用量を50.0%削減できる。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [19.447729423696096]
大規模言語モデルは様々な分野で優れているが、メモリと時間効率の課題に直面している。
最近の取り組みでは、KVキャッシュのサイズを所定のメモリ予算に減らし、実行中に巨大な非クリティカルキャッシュ要素を排除しようとしている。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - D2-Net: Weakly-Supervised Action Localization via Discriminative
Embeddings and Denoised Activations [172.05295776806773]
本研究では,D2-Net と呼ばれる時間的行動ローカリゼーションフレームワークを提案する。
私たちの主な貢献は、潜伏埋め込みの識別性を共同で向上する新しい損失製剤の導入です。
我々のD2-Netは、既存の2つのデータセットの手法と比較して好意的に機能する。
論文 参考訳(メタデータ) (2020-12-11T16:01:56Z) - A Generalized Kernel Risk Sensitive Loss for Robust Two-Dimensional
Singular Value Decomposition [11.234115388848283]
2次元特異分解(2DSVD)は、画像再構成、分類、クラスタリングなどの画像処理タスクに広く用いられている。
従来の2DSVDは平均二乗誤差(MSE)損失に基づいており、これは外れ値に敏感である。
本稿では,雑音と外乱の一般化されたカーネルリスクに基づくロバストDSVDを提案する。
論文 参考訳(メタデータ) (2020-05-10T14:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。