論文の概要: Finch: Prompt-guided Key-Value Cache Compression
- arxiv url: http://arxiv.org/abs/2408.00167v1
- Date: Wed, 31 Jul 2024 21:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:16:07.666323
- Title: Finch: Prompt-guided Key-Value Cache Compression
- Title(参考訳): Finch: プロンプト誘導キーバリューキャッシュ圧縮
- Authors: Giulio Corallo, Paolo Papotti,
- Abstract要約: 本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。
本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
- 参考スコア(独自算出の注目度): 9.260624506794226
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent large language model applications, such as Retrieval-Augmented Generation and chatbots, have led to an increased need to process longer input contexts. However, this requirement is hampered by inherent limitations. Architecturally, models are constrained by a context window defined during training. Additionally, processing extensive texts requires substantial GPU memory. We propose a novel approach, Finch, to compress the input context by leveraging the pre-trained model weights of the self-attention. Given a prompt and a long text, Finch iteratively identifies the most relevant Key (K) and Value (V) pairs over chunks of the text conditioned on the prompt. Only such pairs are stored in the KV cache, which, within the space constrained by the context window, ultimately contains a compressed version of the long text. Our proposal enables models to consume large inputs even with high compression (up to 93x) while preserving semantic integrity without the need for fine-tuning.
- Abstract(参考訳): Retrieval-Augmented Generationやチャットボットといった最近の大規模言語モデルは、より長い入力コンテキストを処理する必要性が高まっている。
しかし、この要件は固有の制限によって妨げられている。
アーキテクチャ上、モデルはトレーニング中に定義されたコンテキストウィンドウによって制約される。
さらに、広範なテキストを処理するには、相当なGPUメモリが必要である。
本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。
プロンプトと長いテキストが与えられた後、フィンチはプロンプトに条件付けられたテキストのチャンク上で最も関連性の高いキー(K)と値(V)のペアを反復的に識別する。
このようなペアのみがKVキャッシュに格納され、コンテキストウィンドウによって制約された空間内には、最終的に長いテキストの圧縮版が含まれている。
本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models [5.330795983408874]
遅延チャンキングと呼ばれる新しい手法を導入し、長いコンテキストの埋め込みモデルを利用して、まず長いテキストのトークンを埋め込む。
結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-09-07T03:54:46Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models [48.592730159983276]
Prefillingは、自己回帰生成前のプロンプトにおける入力トークンのキー値キャッシュの計算である。
より長い入力プロンプト長の場合、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本稿では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
論文 参考訳(メタデータ) (2024-04-15T07:49:10Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Compressed Context Memory For Online Language Model Interaction [39.72054168889216]
本稿では,オンラインシナリオにおけるトランスフォーマー言語モデルに対する文脈キー/値圧縮手法を提案する。
コンテキストが長くなるにつれて、アテンションプロセスはメモリと計算量の増加を必要とし、それによって言語モデルのスループットが低下する。
本稿では,注目鍵/値ペアを連続的にコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:50:43Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Focused Transformer: Contrastive Training for Context Scaling [31.44508996359732]
コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。
FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。
提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
論文 参考訳(メタデータ) (2023-07-06T17:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。