論文の概要: Unleashing Infinite-Length Input Capacity for Large-scale Language
Models with Self-Controlled Memory System
- arxiv url: http://arxiv.org/abs/2304.13343v1
- Date: Wed, 26 Apr 2023 07:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 15:19:33.257503
- Title: Unleashing Infinite-Length Input Capacity for Large-scale Language
Models with Self-Controlled Memory System
- Title(参考訳): 自己制御型メモリシステムを用いた大規模言語モデルにおける無限長入力容量の解法
- Authors: Xinnian Liang and Bing Wang and Hui Huang and Shuangzhi Wu and Peihao
Wu and Lu Lu and Zejun Ma and Zhoujun Li
- Abstract要約: 大規模言語モデル(LLM)は、長い入力を処理できないことによる制約がある。
本稿では,大規模言語モデルに対する無限長入力容量を解放する自己制御メモリ(SCM)システムを提案する。
- 参考スコア(独自算出の注目度): 32.892298725717666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Language Models (LLMs) are constrained by their inability to
process lengthy inputs. To address this limitation, we propose the
Self-Controlled Memory (SCM) system to unleash infinite-length input capacity
for large-scale language models. Our SCM system is composed of three key
modules: the language model agent, the memory stream, and the memory
controller. The language model agent iteratively processes ultra-long inputs
and stores all historical information in the memory stream. The memory
controller provides the agent with both long-term memory (archived memory) and
short-term memory (flash memory) to generate precise and coherent responses.
The controller determines which memories from archived memory should be
activated and how to incorporate them into the model input. Our SCM system can
be integrated with any LLMs to enable them to process ultra-long texts without
any modification or fine-tuning. Experimental results show that our SCM system
enables LLMs, which are not optimized for multi-turn dialogue, to achieve
multi-turn dialogue capabilities that are comparable to ChatGPT, and to
outperform ChatGPT in scenarios involving ultra-long document summarization or
long-term conversations. Additionally, we will supply a test set, which covers
common long-text input scenarios, for evaluating the abilities of LLMs in
processing long documents.~\footnote{Working in
progress.}\footnote{\url{https://github.com/wbbeyourself/SCM4LLMs}}
- Abstract(参考訳): 大規模言語モデル(LLM)は、長い入力を処理できないことによる制約がある。
この制限に対処するため,大規模言語モデルの無限長入力容量を解放する自己制御メモリ(SCM)システムを提案する。
我々のSCMシステムは,言語モデルエージェント,メモリストリーム,メモリコントローラの3つの重要なモジュールで構成されている。
言語モデルエージェントは、超長い入力を反復的に処理し、すべての履歴情報をメモリストリームに格納する。
メモリコントローラは、エージェントに長期記憶(アーキブドメモリ)と短期記憶(フラッシュメモリ)の両方を提供し、正確かつコヒーレントな応答を生成する。
コントローラは、アーカイブされたメモリからのメモリをアクティベートし、モデル入力にそれを組み込む方法を決定する。
scmシステムは任意のllmと統合でき、修正や微調整なしに超長のテキストを処理できます。
実験の結果,マルチターン対話に最適化されていないllmでは,チャットgptに匹敵するマルチターン対話機能を実現でき,超長期文書要約や長期会話のシナリオではチャットgptよりも優れていた。
さらに、長い文書処理におけるLLMの能力を評価するために、一般的な長文入力シナリオをカバーするテストセットを提供する。
〜\footnote{Working in progress.
https://github.com/wbbeyourself/SCM4LLMs}}
関連論文リスト
- Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。
SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文 参考訳(メタデータ) (2024-10-10T17:17:38Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - PerLTQA: A Personal Long-Term Memory Dataset for Memory Classification,
Retrieval, and Synthesis in Question Answering [27.815507347725344]
本研究は、意味記憶とエピソード記憶を組み合わせた革新的なQAデータセットであるPerLTQAを紹介する。
PerLTQAは2種類のメモリと、30文字に対して8,593質問のベンチマークを備えている。
本稿では,メモリ分類,メモリ検索,メモリ合成という3つの主要コンポーネントからなる,メモリ統合と生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T04:09:53Z) - MemGPT: Towards LLMs as Operating Systems [50.02623936965231]
大規模言語モデル(LLM)はAIに革命をもたらしたが、限られたコンテキストウィンドウによって制約されている。
従来のオペレーティングシステムにおける階層型メモリシステムからのインスピレーションを引き出す技術である仮想コンテキスト管理を提案する。
私たちはMemGPTコードと実験のためのデータをhttps://memgpt.ai.comでリリースします。
論文 参考訳(メタデータ) (2023-10-12T17:51:32Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。