Fugu-MT 論文翻訳(概要): XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference

論文の概要: XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference

arxiv url: http://arxiv.org/abs/2404.15420v1
Date: Tue, 23 Apr 2024 18:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-25 15:23:04.534517
Title: XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference
Title（参考訳）: XCキャッシュ: 効率的なLLM推論のためのキャッシュコンテキストへのクロスエージェント
Authors: João Monteiro, Étienne Marcotte, Pierre-André Noël, Valentina Zantedeschi, David Vázquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian,
Abstract要約: インコンテキスト学習(ICL)アプローチは典型的には、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシュと比較して空間フットプリントを2桁の精度で大幅に削減する。
参考スコア（独自算出の注目度）: 20.249206904309816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) approaches typically leverage prompting to condition decoder-only language model generation on reference information. Just-in-time processing of a context is inefficient due to the quadratic cost of self-attention operations, and caching is desirable. However, caching transformer states can easily require almost as much space as the model parameters. When the right context isn't known in advance, caching ICL can be challenging. This work addresses these limitations by introducing models that, inspired by the encoder-decoder architecture, use cross-attention to condition generation on reference text without the prompt. More precisely, we leverage pre-trained decoder-only models and only train a small number of added layers. We use Question-Answering (QA) as a testbed to evaluate the ability of our models to perform conditional generation and observe that they outperform ICL, are comparable to fine-tuned prompted LLMs, and drastically reduce the space footprint relative to standard KV caching by two orders of magnitude.
Abstract（参考訳）: In-context Learning (ICL) アプローチは通常、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。コンテキストのジャスト・イン・タイム処理は、自己アテンション操作の二次的なコストのために非効率であり、キャッシュが望ましい。しかし、キャッシングトランスフォーマー状態はモデルパラメータと同じくらいのスペースを必要とする。適切なコンテキストが事前に分かっていない場合、ICLのキャッシュは難しい可能性がある。この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。より正確には、トレーニング済みのデコーダのみのモデルを活用し、少数の追加レイヤのみをトレーニングします。質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシングに対する空間フットプリントを2桁の精度で大幅に削減する。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
Deliberation in Latent Space via Differentiable Cache Augmentation [48.228222586655484]
凍結した大規模言語モデルをオフラインコプロセッサで拡張し,キー値(kv)キャッシュで動作することを示す。このコプロセッサは、後続の復号化の忠実性を改善するために設計された遅延埋め込みのセットでキャッシュを増強する。キャッシュが拡張されると、デコーダは多数のトークンに対して低いパープレキシティを達成できることを示す。
論文参考訳（メタデータ） (2024-12-23T18:02:25Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文参考訳（メタデータ） (2024-07-25T12:56:22Z)
PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
キーバリューキャッシュ(KVCache)は、大規模言語モデル(LLM)において重要なコンポーネントである現在の手法では、この問題に対処するためにLLMにおける自己注意に適したキーと値を選択的に決定する。本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
論文参考訳（メタデータ） (2024-07-01T13:05:42Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。 KVキャッシュ技術は業界で最も広く使われている技術の一つである。本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文参考訳（メタデータ） (2024-04-28T03:11:42Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。