論文の概要: Needle in the Haystack for Memory Based Large Language Models
- arxiv url: http://arxiv.org/abs/2407.01437v1
- Date: Mon, 1 Jul 2024 16:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:41:15.474809
- Title: Needle in the Haystack for Memory Based Large Language Models
- Title(参考訳): メモリベース大規模言語モデルのためのHaystackの針
- Authors: Subhajit Chaudhury, Soham Dan, Payel Das, Georgios Kollias, Elliot Nelson,
- Abstract要約: 本稿では,メモリ拡張型大規模言語モデル(LLM)アーキテクチャを用いて,潜在的に長いコンテキストから事実のリコール能力を向上させることのメリットを実証する。
ケーススタディでは,LLMデコーダを外部連想メモリで拡張するLLMアーキテクチャであるLARIMARをテストする。
テスト時に外部メモリを適応させて、トレーニング中に見られるものよりもはるかに長いコンテキストを処理できることを実証します。
- 参考スコア(独自算出の注目度): 31.88553984397747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we demonstrate the benefits of using memory augmented Large Language Model (LLM) architecture in improving the recall abilities of facts from a potentially long context. As a case study we test LARIMAR, a recently proposed LLM architecture which augments a LLM decoder with an external associative memory, on several long-context recall tasks, including passkey and needle-in-the-haystack tests. We demonstrate that the external memory can be adapted at test time to handle contexts much longer than those seen during training, while keeping readouts from the memory recognizable to the trained decoder and without increasing GPU memory footprint. Compared to alternative architectures for long-context recall tasks with models of a comparable parameter count, LARIMAR is able to maintain strong performance without any task-specific training.
- Abstract(参考訳): 本稿では,メモリ拡張大言語モデル(LLM)アーキテクチャを用いて,潜在的に長いコンテキストから事実のリコール能力を向上させることのメリットを実証する。
LLMデコーダを外部連想メモリで拡張するLLMアーキテクチャであるLARIMARを、パスキーやニードル・イン・ザ・ヘイスタックテストなど、複数の長時間コンテキストリコールタスクでテストする。
我々は、トレーニング中のメモリの読み出しをトレーニングされたデコーダに認識でき、GPUメモリフットプリントを増大させることなく、テスト時に外部メモリを適応して、トレーニング中のメモリよりもはるかに長いコンテキストを処理できることを実証した。
パラメータ数に匹敵するモデルを持つ長文リコールタスクの代替アーキテクチャと比較して、LARIMARはタスク固有のトレーニングなしで強力なパフォーマンスを維持することができる。
関連論文リスト
- HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Larimar: Large Language Models with Episodic Memory Control [62.70727449128647]
Larimarは、分散エピソードメモリで大規模言語モデルを拡張するための、脳にインスパイアされたアーキテクチャである。
複数のファクト編集ベンチマークの実験結果は、Larimarが最も競争力のあるベースラインに匹敵する精度を達成したことを示している。
本稿では,Larimarを用いた選択的事実認識,情報漏洩防止,入力コンテキスト長の一般化のためのメカニズムを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:01:42Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。