論文の概要: Augmenting Language Models with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2306.07174v1
- Date: Mon, 12 Jun 2023 15:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:11:33.266183
- Title: Augmenting Language Models with Long-Term Memory
- Title(参考訳): 長期記憶による言語モデルの拡張
- Authors: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng
Gao, Furu Wei
- Abstract要約: 既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
- 参考スコア(独自算出の注目度): 142.04940250657637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing large language models (LLMs) can only afford fix-sized inputs due to
the input length limit, preventing them from utilizing rich long-context
information from past inputs. To address this, we propose a framework, Language
Models Augmented with Long-Term Memory (LongMem), which enables LLMs to
memorize long history. We design a novel decoupled network architecture with
the original backbone LLM frozen as a memory encoder and an adaptive residual
side-network as a memory retriever and reader. Such a decoupled memory design
can easily cache and update long-term past contexts for memory retrieval
without suffering from memory staleness. Enhanced with memory-augmented
adaptation training, LongMem can thus memorize long past context and use
long-term memory for language modeling. The proposed memory retrieval module
can handle unlimited-length context in its memory bank to benefit various
downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k
tokens and thus cache many-shot extra demonstration examples as long-form
memory for in-context learning. Experiments show that our method outperforms
strong long-context models on ChapterBreak, a challenging long-context modeling
benchmark, and achieves remarkable improvements on memory-augmented in-context
learning over LLMs. The results demonstrate that the proposed method is
effective in helping language models to memorize and utilize long-form
contents. Our code is open-sourced at https://aka.ms/LongMem.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)は、入力長制限による固定サイズの入力しか入手できないため、過去の入力からリッチな長文情報を利用できない。
そこで我々は,長期記憶(long-term memory, longmem)を付加した言語モデルフレームワークを提案する。
本稿では,メモリエンコーダとして固定されたオリジナルのbackbone llmと,メモリレコーダとリーダとして適応的な残差側ネットワークを備えた,新たな分離ネットワークアーキテクチャを設計する。
このような分離メモリ設計は、メモリの不安定さに苦しむことなく、メモリ検索のための長期の過去のコンテキストをキャッシュして更新することができる。
メモリ拡張適応トレーニングによって強化されたLongMemは、過去のコンテキストを記憶し、言語モデリングに長期メモリを使用することができる。
提案するメモリ検索モジュールはメモリバンク内で無限長のコンテキストを扱うことができ、様々なダウンストリームタスクの恩恵を受けることができる。
通常、LongMemは長文のメモリを65kのトークンに拡張し、長文の学習用の長文のメモリとして多くのショットのデモ例をキャッシュすることができる。
実験により,本手法は,長時間コンテキストモデリングベンチマークであるchapterbreakの強力なlong-contextモデルよりも優れており,llm上でのメモリ応答型in-context学習において著しい改善が得られた。
提案手法は,長文内容を記憶・活用するための言語モデルに有効であることを示す。
私たちのコードはhttps://aka.ms/longmem.com/でオープンソースです。
関連論文リスト
- Evolving Large Language Model Assistant with Long-Term Conditional
Memory [16.91211676915775]
音声の長期記憶を利用した大規模言語モデルアシスタントを提案する。
モデルは、完了した対話ごとに一連のレコードを生成し、それらをメモリに格納する。
後続の使用では、新しいユーザ入力が与えられた場合、そのモデルがそれを使用して関連するメモリを取得し、応答の品質を向上させる。
論文 参考訳(メタデータ) (2023-12-22T02:39:15Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Extending Memory for Language Modelling [0.0]
無限に長いシーケンスから学習するためにLong Term Memory Network (LTM)を導入する。
LTMは現在の入力に優先順位を与え、高いインパクトを与える。
我々はLTMを長期記憶を必要とする他の言語モデルと比較する。
論文 参考訳(メタデータ) (2023-05-19T06:30:19Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。