論文の概要: Augmenting Language Models with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2306.07174v1
- Date: Mon, 12 Jun 2023 15:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:11:33.266183
- Title: Augmenting Language Models with Long-Term Memory
- Title(参考訳): 長期記憶による言語モデルの拡張
- Authors: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng
Gao, Furu Wei
- Abstract要約: 既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
- 参考スコア(独自算出の注目度): 142.04940250657637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing large language models (LLMs) can only afford fix-sized inputs due to
the input length limit, preventing them from utilizing rich long-context
information from past inputs. To address this, we propose a framework, Language
Models Augmented with Long-Term Memory (LongMem), which enables LLMs to
memorize long history. We design a novel decoupled network architecture with
the original backbone LLM frozen as a memory encoder and an adaptive residual
side-network as a memory retriever and reader. Such a decoupled memory design
can easily cache and update long-term past contexts for memory retrieval
without suffering from memory staleness. Enhanced with memory-augmented
adaptation training, LongMem can thus memorize long past context and use
long-term memory for language modeling. The proposed memory retrieval module
can handle unlimited-length context in its memory bank to benefit various
downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k
tokens and thus cache many-shot extra demonstration examples as long-form
memory for in-context learning. Experiments show that our method outperforms
strong long-context models on ChapterBreak, a challenging long-context modeling
benchmark, and achieves remarkable improvements on memory-augmented in-context
learning over LLMs. The results demonstrate that the proposed method is
effective in helping language models to memorize and utilize long-form
contents. Our code is open-sourced at https://aka.ms/LongMem.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)は、入力長制限による固定サイズの入力しか入手できないため、過去の入力からリッチな長文情報を利用できない。
そこで我々は,長期記憶(long-term memory, longmem)を付加した言語モデルフレームワークを提案する。
本稿では,メモリエンコーダとして固定されたオリジナルのbackbone llmと,メモリレコーダとリーダとして適応的な残差側ネットワークを備えた,新たな分離ネットワークアーキテクチャを設計する。
このような分離メモリ設計は、メモリの不安定さに苦しむことなく、メモリ検索のための長期の過去のコンテキストをキャッシュして更新することができる。
メモリ拡張適応トレーニングによって強化されたLongMemは、過去のコンテキストを記憶し、言語モデリングに長期メモリを使用することができる。
提案するメモリ検索モジュールはメモリバンク内で無限長のコンテキストを扱うことができ、様々なダウンストリームタスクの恩恵を受けることができる。
通常、LongMemは長文のメモリを65kのトークンに拡張し、長文の学習用の長文のメモリとして多くのショットのデモ例をキャッシュすることができる。
実験により,本手法は,長時間コンテキストモデリングベンチマークであるchapterbreakの強力なlong-contextモデルよりも優れており,llm上でのメモリ応答型in-context学習において著しい改善が得られた。
提案手法は,長文内容を記憶・活用するための言語モデルに有効であることを示す。
私たちのコードはhttps://aka.ms/longmem.com/でオープンソースです。
関連論文リスト
- MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。
MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-30T02:01:56Z) - Needle in the Haystack for Memory Based Large Language Models [31.885539843977472]
現在の大規模言語モデル(LLM)は、単純な事実検索タスクではよく機能しない。
動的に適応可能な外部メモリをLCMに結合することでこの問題を軽減することができるか検討する。
テキストサンプルのエピソードを高速に書き書きできるLarimarの外部メモリは、テスト時に、トレーニング中に見られるものよりもはるかに長いコンテキストを扱うために使用できることを示した。
論文 参考訳(メタデータ) (2024-07-01T16:32:16Z) - SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。
近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。
本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:37:03Z) - HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。