論文の概要: Training Language Models with Memory Augmentation
- arxiv url: http://arxiv.org/abs/2205.12674v1
- Date: Wed, 25 May 2022 11:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:44:22.101789
- Title: Training Language Models with Memory Augmentation
- Title(参考訳): 記憶強化による言語モデルの訓練
- Authors: Zexuan Zhong, Tao Lei, Danqi Chen
- Abstract要約: 本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 28.4608705738799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has improved language models remarkably by equipping them with a
non-parametric memory component. However, most existing approaches only
introduce memories at testing time, or represent them using a separately
trained encoder -- resulting in sub-optimal training of the language model. In
this work, we present TRIME, a novel yet simple training approach designed for
training language models with memory augmentation. Our approach uses a training
objective that directly takes in-batch examples as accessible memory. We also
present new methods for memory construction and data batching, which are used
for adapting to different sets of memories -- local, long-term, and external
memory -- at testing time. We evaluate our approach on multiple language
modeling and machine translation benchmarks. We find that simply replacing the
vanilla language modeling objective by ours greatly reduces the perplexity,
without modifying the model architecture or incorporating extra context (e.g.,
18.70 $\to$ 17.76 on WikiText-103). We further augment language models with
long-range contexts and external knowledge and demonstrate significant gains
over previous memory-augmented approaches.
- Abstract(参考訳): 最近の研究は、非パラメトリックメモリコンポーネントを装備することで言語モデルを大幅に改善した。
しかし、既存のアプローチのほとんどはテスト時にのみメモリを導入し、個別にトレーニングされたエンコーダを使ってそれらを表現している。
本研究では,メモリ拡張による言語モデルの学習を目的とした,新しいシンプルなトレーニング手法であるTRIMEを提案する。
当社のアプローチでは,バッチ内サンプルをアクセス可能なメモリとして直接使用するトレーニング目標を採用している。
また、テスト時に異なるメモリセット -- ローカルメモリ、長期メモリ、外部メモリ -- に適応するために使用される、メモリ構築とデータバッチのための新しい方法も提示する。
我々は複数の言語モデリングと機械翻訳ベンチマークに対するアプローチを評価する。
モデルアーキテクチャを変更したり、余分なコンテキスト(例えば、WikiText-103で18.70$\to$ 17.76)を組み込むことなく、バニラ言語モデリングの目的を我々の手で置き換えることによって、難易度が大幅に低下することを発見した。
長期のコンテキストと外部知識を持つ言語モデルをさらに強化し、従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
関連論文リスト
- HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。
本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memorizing Transformers [20.99393776139059]
我々は、推論時に新しいデータを読み書きできる言語モデルを考え、その結果、すぐに新しい知識を得る。
我々は、最近の(キー、値)ペアの非微分可能なメモリへの近似kNNのルックアップが、様々なベンチマークやタスクにおける言語モデリングを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-16T19:54:35Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-04T11:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。