論文の概要: MEMORYLLM: Towards Self-Updatable Large Language Models
- arxiv url: http://arxiv.org/abs/2402.04624v1
- Date: Wed, 7 Feb 2024 07:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:42:33.426005
- Title: MEMORYLLM: Towards Self-Updatable Large Language Models
- Title(参考訳): MEMORYLLM: 自己更新可能な大規模言語モデルを目指して
- Authors: Yu Wang, Xiusi Chen, Jingbo Shang, Julian McAuley
- Abstract要約: MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証された長期情報保持能力を示す。
- 参考スコア(独自算出の注目度): 52.99595594628542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Large Language Models (LLMs) usually remain static after deployment,
which might make it hard to inject new knowledge into the model. We aim to
build models containing a considerable portion of self-updatable parameters,
enabling the model to integrate new knowledge effectively and efficiently. To
this end, we introduce MEMORYLLM, a model that comprises a transformer and a
fixed-size memory pool within the latent space of the transformer. MEMORYLLM
can self-update with text knowledge and memorize the knowledge injected
earlier. Our evaluations demonstrate the ability of MEMORYLLM to effectively
incorporate new knowledge, as evidenced by its performance on model editing
benchmarks. Meanwhile, the model exhibits long-term information retention
capacity, which is validated through our custom-designed evaluations and
long-context benchmarks. MEMORYLLM also shows operational integrity without any
sign of performance degradation even after nearly a million memory updates.
- Abstract(参考訳): 既存のLarge Language Models (LLM) は通常、デプロイ後に静的のままであり、モデルに新しい知識を注入するのは困難である。
我々は,自己回復可能なパラメータのかなりの部分を含むモデルを構築し,新しい知識を効果的かつ効率的に統合することを目指している。
そこで本研究では,変圧器の潜伏空間内に,変圧器と固定サイズのメモリプールを備えるモデルMEMORYLLMを紹介する。
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
評価の結果,モデル編集ベンチマークの性能が示すように,新しい知識を効果的に取り入れる能力が示された。
一方、このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証される長期情報保持能力を示す。
MEMORYLLMは、100万近いメモリ更新後のパフォーマンス低下の兆候のない、運用上の整合性も示している。
関連論文リスト
- Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Recurrent Memory Decision Transformer [55.41644538483948]
本稿では,リカレントメモリ決定変換器(RMDT)を提案する。
我々は,アタリゲームと MuJoCo 制御問題に関する徹底的な実験を行い,提案モデルが再帰的なメモリ機構を伴わずに,そのモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Revision Transformers: Instructing Language Models to Change their
Values [21.645935518842744]
現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。
モデル更新を容易にするリビジョントランス (RiT) を提案する。
明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。
論文 参考訳(メタデータ) (2022-10-19T07:05:06Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。