論文の概要: CMT: A Memory Compression Method for Continual Knowledge Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.07393v1
- Date: Tue, 10 Dec 2024 10:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:15.374011
- Title: CMT: A Memory Compression Method for Continual Knowledge Learning of Large Language Models
- Title(参考訳): CMT:大規模言語モデルの継続的な知識学習のためのメモリ圧縮手法
- Authors: Dongfang Li, Zetian Sun, Xinshuo Hu, Baotian Hu, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、データ、タスク、ユーザの好みの継続的な変更に適応する必要がある。
本稿では,これらの課題に対処するため,圧縮記憶訓練(CMT)法を提案する。
CMTは、メモリバンクに格納される新しい文書から情報を圧縮して抽出する。
これらの新しいドキュメントに関する問い合わせに答えると、モデルはこれらのドキュメントの記憶をメモリバンクから集約し、ユーザーの質問に答える。
- 参考スコア(独自算出の注目度): 22.93893181000535
- License:
- Abstract: Large Language Models (LLMs) need to adapt to the continuous changes in data, tasks, and user preferences. Due to their massive size and the high costs associated with training, LLMs are not suitable for frequent retraining. However, updates are necessary to keep them in sync with rapidly evolving human knowledge. To address these challenges, this paper proposes the Compression Memory Training (CMT) method, an efficient and effective online adaptation framework for LLMs that features robust knowledge retention capabilities. Inspired by human memory mechanisms, CMT compresses and extracts information from new documents to be stored in a memory bank. When answering to queries related to these new documents, the model aggregates these document memories from the memory bank to better answer user questions. The parameters of the LLM itself do not change during training and inference, reducing the risk of catastrophic forgetting. To enhance the encoding, retrieval, and aggregation of memory, we further propose three new general and flexible techniques, including memory-aware objective, self-matching and top-aggregation. Extensive experiments conducted on three continual learning datasets (i.e., StreamingQA, SQuAD and ArchivalQA) demonstrate that the proposed method improves model adaptability and robustness across multiple base LLMs (e.g., +4.07 EM & +4.19 F1 in StreamingQA with Llama-2-7b).
- Abstract(参考訳): 大規模言語モデル(LLM)は、データ、タスク、ユーザの好みの継続的な変更に適応する必要がある。
大型化と訓練に伴う高コスト化のため、LSMは頻繁な再訓練には適さない。
しかし、急速に進化する人間の知識と同期させるためには、更新が必要である。
これらの課題に対処するために,LLMの堅牢な知識保持機能を備えた効率的かつ効果的なオンライン適応フレームワークである圧縮記憶訓練(CMT)手法を提案する。
人間の記憶機構にインスパイアされたCMTは、メモリバンクに格納される新しいドキュメントから情報を圧縮して抽出する。
これらの新しいドキュメントに関する問い合わせに答えると、モデルはこれらのドキュメントの記憶をメモリバンクから集約し、ユーザーの質問に答える。
LLM自体のパラメータはトレーニングや推論中に変化せず、破滅的な忘れ込みのリスクを減少させる。
メモリのエンコーディング、検索、集約を強化するため、メモリ認識目的、自己マッチング、トップアグリゲーションを含む3つの新しい汎用および柔軟な手法を提案する。
連続学習データセット(StreamingQA, SQuAD, ArchivalQA)を用いて行った大規模な実験により,Llama-2-7bを用いたStreamingQAにおいて,複数のLLM(例:+4.07 EMおよび+4.19 F1)におけるモデル適応性とロバスト性の向上が示された。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Continual Variational Autoencoder Learning via Online Cooperative
Memorization [11.540150938141034]
変分オートエンコーダ(VAE)は連続的な学習分類タスクでうまく使われている。
しかし、連続学習で学んだクラスやデータベースに対応する仕様で画像を生成する能力はよく理解されていない。
我々は、CLを動的最適輸送問題として定式化する新しい理論フレームワークを開発する。
次に,新しいメモリバッファリング手法,すなわちオンライン協調記憶(OCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T18:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。