論文の概要: Larimar: Large Language Models with Episodic Memory Control
- arxiv url: http://arxiv.org/abs/2403.11901v4
- Date: Wed, 21 Aug 2024 22:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:25:36.564437
- Title: Larimar: Large Language Models with Episodic Memory Control
- Title(参考訳): Larimar: エピソードメモリ制御を備えた大規模言語モデル
- Authors: Payel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen,
- Abstract要約: Larimarは、分散エピソードメモリで大規模言語モデルを拡張するための、脳にインスパイアされたアーキテクチャである。
複数のファクト編集ベンチマークの実験結果は、Larimarが最も競争力のあるベースラインに匹敵する精度を達成したことを示している。
本稿では,Larimarを用いた選択的事実認識,情報漏洩防止,入力コンテキスト長の一般化のためのメカニズムを提案する。
- 参考スコア(独自算出の注目度): 62.70727449128647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient and accurate updating of knowledge stored in Large Language Models (LLMs) is one of the most pressing research challenges today. This paper presents Larimar - a novel, brain-inspired architecture for enhancing LLMs with a distributed episodic memory. Larimar's memory allows for dynamic, one-shot updates of knowledge without the need for computationally expensive re-training or fine-tuning. Experimental results on multiple fact editing benchmarks demonstrate that Larimar attains accuracy comparable to most competitive baselines, even in the challenging sequential editing setup, but also excels in speed - yielding speed-ups of 8-10x depending on the base LLM - as well as flexibility due to the proposed architecture being simple, LLM-agnostic, and hence general. We further provide mechanisms for selective fact forgetting, information leakage prevention, and input context length generalization with Larimar and show their effectiveness. Our code is available at https://github.com/IBM/larimar
- Abstract(参考訳): LLM(Large Language Models)に格納された知識の効率的かつ正確な更新は、今日の最も急進的な研究課題の1つである。
本稿では,Larimarについて述べる。Larimarは,分散エピソードメモリを用いてLLMを拡張するための,脳にインスパイアされた新しいアーキテクチャである。
Larimarのメモリは、計算コストのかかるリトレーニングや微調整を必要とせずに、動的でワンショットの知識更新を可能にする。
複数のファクト編集ベンチマークの実験結果から、Larimarは、挑戦的なシーケンシャルな編集セットアップであっても、最も競争力のあるベースラインに匹敵する精度を達成できただけでなく、ベースLLMに依存して8~10倍のスピードアップを実現している。
さらに,Larimarを用いた情報漏洩防止,入力コンテキスト長の一般化のメカニズムを提案し,その有効性を示す。
私たちのコードはhttps://github.com/IBM/larimarで利用可能です。
関連論文リスト
- Needle in the Haystack for Memory Based Large Language Models [31.885539843977472]
現在の大規模言語モデル(LLM)は、単純な事実検索タスクではよく機能しない。
動的に適応可能な外部メモリをLCMに結合することでこの問題を軽減することができるか検討する。
テキストサンプルのエピソードを高速に書き書きできるLarimarの外部メモリは、テスト時に、トレーニング中に見られるものよりもはるかに長いコンテキストを扱うために使用できることを示した。
論文 参考訳(メタデータ) (2024-07-01T16:32:16Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models [78.22291694903659]
大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:35:52Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。