論文の概要: Compressed Context Memory For Online Language Model Interaction
- arxiv url: http://arxiv.org/abs/2312.03414v2
- Date: Tue, 6 Feb 2024 05:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:52:44.769523
- Title: Compressed Context Memory For Online Language Model Interaction
- Title(参考訳): オンライン言語モデルインタラクションのための圧縮コンテキストメモリ
- Authors: Jang-Hyun Kim, Junyoung Yeom, Sangdoo Yun, Hyun Oh Song
- Abstract要約: 本稿では,オンラインシナリオにおけるトランスフォーマー言語モデルに対する文脈キー/値圧縮手法を提案する。
コンテキストが長くなるにつれて、アテンションプロセスはメモリと計算量の増加を必要とし、それによって言語モデルのスループットが低下する。
本稿では,注目鍵/値ペアを連続的にコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。
- 参考スコア(独自算出の注目度): 39.72054168889216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a context key/value compression method for Transformer
language models in online scenarios, where the context continually expands. As
the context lengthens, the attention process demands increasing memory and
computations, which in turn reduces the throughput of the language model. To
address this challenge, we propose a compressed context memory system that
continually compresses the accumulating attention key/value pairs into a
compact memory space, facilitating language model inference in a limited memory
space of computing environments. Our compression process involves integrating a
lightweight conditional LoRA into the language model's forward pass during
inference, without the need for fine-tuning the model's entire set of weights.
We achieve efficient training by modeling the recursive compression process as
a single parallelized forward computation. Through evaluations on conversation,
personalization, and multi-task learning, we demonstrate that our approach
achieves the performance level of a full context model with $5\times$ smaller
context memory size. We further demonstrate the applicability of our approach
in a streaming setting with an unlimited context length, outperforming the
sliding window approach. Codes are available at
https://github.com/snu-mllab/context-memory.
- Abstract(参考訳): 本稿では,オンラインシナリオにおける変換言語モデルに対する文脈キー/値圧縮手法を提案する。
コンテキストが長くなるにつれて、注意プロセスはメモリと計算の増大を必要とし、それによって言語モデルのスループットが低下する。
この課題に対処するため、コンピュータ環境の限られたメモリ空間における言語モデル推論を容易にし、注目鍵/値ペアをコンパクトなメモリ空間に継続的に圧縮する圧縮文脈記憶システムを提案する。
私たちの圧縮プロセスでは、推論中に軽量条件付きloraを言語モデルの前方パスに統合し、モデルの重みのセット全体を微調整する必要はありません。
再帰的圧縮プロセスを単一並列化前方計算としてモデル化することにより,効率的なトレーニングを実現する。
会話,パーソナライゼーション,マルチタスク学習の評価を通じて,本手法がコンテキストモデル全体の性能レベルを5\times$より小さいコンテキストメモリサイズで達成できることを実証した。
さらに,スライディングウインドウアプローチに匹敵する,無制限なコンテキスト長のストリーミング環境において,このアプローチの適用性を示す。
コードはhttps://github.com/snu-mllab/context-memoryで入手できる。
関連論文リスト
- The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - Recurrent Context Compression: Efficiently Expanding the Context Window of LLM [22.595457889113668]
この研究はRecurrent Context Compression (RCC)と呼ばれる手法を導入し、Transformerベースの大規模言語モデル(LLM)のコンテキストウィンドウ長を効率的に拡張する。
我々は,複数のタスクに対するアプローチを検証し,BLEU4スコアが0.95に近いテキスト再構成タスクで最大32倍の圧縮率を実現し,シーケンス長1Mのパスキー検索タスクで約100%の精度を実現した。
論文 参考訳(メタデータ) (2024-06-10T08:50:59Z) - Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。
提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文 参考訳(メタデータ) (2024-05-17T08:59:46Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。