論文の概要: Mass-Editing Memory in a Transformer
- arxiv url: http://arxiv.org/abs/2210.07229v2
- Date: Tue, 1 Aug 2023 18:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 18:25:04.544568
- Title: Mass-Editing Memory in a Transformer
- Title(参考訳): 変圧器における質量編集メモリ
- Authors: Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, David
Bau
- Abstract要約: 我々は,多数の記憶を持つ言語モデルを直接更新する手法であるMEMITを開発した。
実験により, GPT-J (6B) と GPT-NeoX (20B) の関連性を数千まで拡張できることが実証された。
- 参考スコア(独自算出の注目度): 29.588538898053915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown exciting promise in updating large language models with
new memories, so as to replace obsolete information or add specialized
knowledge. However, this line of work is predominantly limited to updating
single associations. We develop MEMIT, a method for directly updating a
language model with many memories, demonstrating experimentally that it can
scale up to thousands of associations for GPT-J (6B) and GPT-NeoX (20B),
exceeding prior work by orders of magnitude. Our code and data are at
https://memit.baulab.info.
- Abstract(参考訳): 最近の研究は、古い情報を置き換えるか、専門知識を追加するために、大きな言語モデルを新しい記憶で更新する際のエキサイティングな約束を示している。
しかし、この系統の作業は、主に単一の協会の更新に限られている。
我々は,多数の記憶を持つ言語モデルを直接更新する手法であるMEMITを開発し,GPT-J (6B) と GPT-NeoX (20B) の関連性を数千まで拡張できることを実験的に実証した。
コードとデータはhttps://memit.baulab.info.comにある。
関連論文リスト
- WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models [78.22291694903659]
大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:35:52Z) - HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。
本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memorizing Transformers [20.99393776139059]
我々は、推論時に新しいデータを読み書きできる言語モデルを考え、その結果、すぐに新しい知識を得る。
我々は、最近の(キー、値)ペアの非微分可能なメモリへの近似kNNのルックアップが、様々なベンチマークやタスクにおける言語モデリングを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-16T19:54:35Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。