論文の概要: Memorizing Transformers
- arxiv url: http://arxiv.org/abs/2203.08913v1
- Date: Wed, 16 Mar 2022 19:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 08:03:18.159119
- Title: Memorizing Transformers
- Title(参考訳): 記憶の変圧器
- Authors: Yuhuai Wu and Markus N. Rabe and DeLesley Hutchins and Christian
Szegedy
- Abstract要約: 我々は、推論時に新しいデータを読み書きできる言語モデルを考え、その結果、すぐに新しい知識を得る。
我々は、最近の(キー、値)ペアの非微分可能なメモリへの近似kNNのルックアップが、様々なベンチマークやタスクにおける言語モデリングを改善することを実証した。
- 参考スコア(独自算出の注目度): 20.99393776139059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models typically need to be trained or finetuned in order to acquire
new knowledge, which involves updating their weights. We instead envision
language models that can simply read and memorize new data at inference time,
thus acquiring new knowledge immediately. In this work, we extend language
models with the ability to memorize the internal representations of past
inputs. We demonstrate that an approximate kNN lookup into a non-differentiable
memory of recent (key, value) pairs improves language modeling across various
benchmarks and tasks, including generic webtext (C4), math papers (arXiv),
books (PG-19), code (Github), as well as formal theorems (Isabelle). We show
that the performance steadily improves when we increase the size of memory up
to 262K tokens. On benchmarks including code and mathematics, we find that the
model is capable of making use of newly defined functions and theorems during
test time.
- Abstract(参考訳): 言語モデルは、新しい知識を得るために訓練や微調整が必要であり、それらは重み付けの更新を伴う。
代わりに、推論時に新しいデータを読み書きし記憶することができる言語モデルを想定し、すぐに新しい知識を得る。
本研究では,過去の入力の内部表現を記憶できる言語モデルを拡張する。
最近の(キー、値)ペアの非微分可能なメモリへの近似knのルックアップが、ジェネリックwebtext(c4)、math paper(arxiv)、books(pg-19)、code(github)、formal theorems(isabelle)など、さまざまなベンチマークやタスクにわたる言語モデリングを改善することを実証する。
メモリサイズを最大262Kのトークンに増やすと、パフォーマンスが着実に向上することを示す。
コードや数学を含むベンチマークでは、テスト期間中に新たに定義された関数や定理を利用することができる。
関連論文リスト
- HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。
本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。