論文の概要: Mass-Editing Memory in a Transformer
- arxiv url: http://arxiv.org/abs/2210.07229v1
- Date: Thu, 13 Oct 2022 17:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:20:24.115580
- Title: Mass-Editing Memory in a Transformer
- Title(参考訳): 変圧器における質量編集メモリ
- Authors: Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, David
Bau
- Abstract要約: 我々は,多数の記憶を持つ言語モデルを直接更新する手法であるMEMITを開発した。
実験により, GPT-J (6B) と GPT-NeoX (20B) の関連性を数千まで拡張できることが実証された。
- 参考スコア(独自算出の注目度): 29.588538898053915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown exciting promise in updating large language models with
new memories, so as to replace obsolete information or add specialized
knowledge. However, this line of work is predominantly limited to updating
single associations. We develop MEMIT, a method for directly updating a
language model with many memories, demonstrating experimentally that it can
scale up to thousands of associations for GPT-J (6B) and GPT-NeoX (20B),
exceeding prior work by orders of magnitude. Our code and data are at
https://memit.baulab.info.
- Abstract(参考訳): 最近の研究は、古い情報を置き換えるか、専門知識を追加するために、大きな言語モデルを新しい記憶で更新する際のエキサイティングな約束を示している。
しかし、この系統の作業は、主に単一の協会の更新に限られている。
我々は,多数の記憶を持つ言語モデルを直接更新する手法であるMEMITを開発し,GPT-J (6B) と GPT-NeoX (20B) の関連性を数千まで拡張できることを実験的に実証した。
コードとデータはhttps://memit.baulab.info.comにある。
関連論文リスト
- MEMORYLLM: Towards Self-Updatable Large Language Models [52.99595594628542]
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証された長期情報保持能力を示す。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - RobBERT-2022: Updating a Dutch Language Model to Account for Evolving
Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。
まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文 参考訳(メタデータ) (2022-11-15T14:55:53Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memorizing Transformers [20.99393776139059]
我々は、推論時に新しいデータを読み書きできる言語モデルを考え、その結果、すぐに新しい知識を得る。
我々は、最近の(キー、値)ペアの非微分可能なメモリへの近似kNNのルックアップが、様々なベンチマークやタスクにおける言語モデリングを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-16T19:54:35Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。