論文の概要: Compressed Context Memory For Online Language Model Interaction
- arxiv url: http://arxiv.org/abs/2312.03414v1
- Date: Wed, 6 Dec 2023 10:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:07:36.509927
- Title: Compressed Context Memory For Online Language Model Interaction
- Title(参考訳): オンライン言語モデルインタラクションのための圧縮コンテキストメモリ
- Authors: Jang-Hyun Kim, Junyoung Yeom, Sangdoo Yun, Hyun Oh Song
- Abstract要約: 本稿では,ChatGPTのようなオンラインシナリオにおけるトランスフォーマー言語モデルのコンテキスト圧縮手法を提案する。
本研究では、成長するコンテキストを連続的に圧縮してコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。
圧縮されたコンテキストメモリに基づいて、言語モデルはメモリとアテンション操作を減らして推論を行うことができる。
- 参考スコア(独自算出の注目度): 39.72054168889216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel context compression method for Transformer
language models in online scenarios such as ChatGPT, where the context
continually expands. As the context lengthens, the attention process requires
more memory and computational resources, which in turn reduces the throughput
of the language model. To this end, we propose a compressed context memory
system that continually compresses the growing context into a compact memory
space. The compression process simply involves integrating a lightweight
conditional LoRA into the language model's forward pass during inference. Based
on the compressed context memory, the language model can perform inference with
reduced memory and attention operations. Through evaluations on conversation,
personalization, and multi-task learning, we demonstrate that our approach
achieves the performance level of a full context model with $5\times$ smaller
context memory space. Codes are available at
https://github.com/snu-mllab/context-memory.
- Abstract(参考訳): 本稿では,ChatGPTのようなオンラインシナリオにおける変換言語モデルのコンテキスト圧縮手法を提案する。
コンテキストが長くなるにつれて、アテンションプロセスにはより多くのメモリと計算リソースが必要になるため、言語モデルのスループットが低下する。
そこで本研究では,成長するコンテキストを連続的にコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。
圧縮プロセスは、単に軽量条件付きloraを推論中の言語モデルの前方パスに統合することを含む。
圧縮されたコンテキストメモリに基づいて、言語モデルは少ないメモリと注意操作で推論を行うことができる。
会話、パーソナライゼーション、マルチタスク学習の評価を通じて、我々のアプローチが5\times$の小さなコンテキストメモリ空間でフルコンテキストモデルのパフォーマンスレベルを達成することを実証する。
コードはhttps://github.com/snu-mllab/context-memoryで入手できる。
関連論文リスト
- The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - Recurrent Context Compression: Efficiently Expanding the Context Window of LLM [22.595457889113668]
この研究はRecurrent Context Compression (RCC)と呼ばれる手法を導入し、Transformerベースの大規模言語モデル(LLM)のコンテキストウィンドウ長を効率的に拡張する。
我々は,複数のタスクに対するアプローチを検証し,BLEU4スコアが0.95に近いテキスト再構成タスクで最大32倍の圧縮率を実現し,シーケンス長1Mのパスキー検索タスクで約100%の精度を実現した。
論文 参考訳(メタデータ) (2024-06-10T08:50:59Z) - Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。
提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文 参考訳(メタデータ) (2024-05-17T08:59:46Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。