論文の概要: How BPE Affects Memorization in Transformers
- arxiv url: http://arxiv.org/abs/2110.02782v1
- Date: Wed, 6 Oct 2021 14:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:28:39.093737
- Title: How BPE Affects Memorization in Transformers
- Title(参考訳): BPEが変圧器の記憶に与える影響
- Authors: Eugene Kharitonov and Marco Baroni and Dieuwke Hupkes
- Abstract要約: Byte-Pair QA (BPE) で学習した単語語彙のサイズは、トレーニングデータを記憶するための標準トランスフォーマーモデルの能力と傾向に大きな影響を与えることを示す。
我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少によって生じると推測する。
- 参考スコア(独自算出の注目度): 36.53583838619203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training data memorization in NLP can both be beneficial (e.g., closed-book
QA) and undesirable (personal data extraction). In any case, successful model
training requires a non-trivial amount of memorization to store word spellings,
various linguistic idiosyncrasies and common knowledge. However, little is
known about what affects the memorization behavior of NLP models, as the field
tends to focus on the equally important question of generalization. In this
work, we demonstrate that the size of the subword vocabulary learned by
Byte-Pair Encoding (BPE) greatly affects both ability and tendency of standard
Transformer models to memorize training data, even when we control for the
number of learned parameters. We find that with a large subword vocabulary
size, Transformer models fit random mappings more easily and are more
vulnerable to membership inference attacks. Similarly, given a prompt,
Transformer-based language models with large subword vocabularies reproduce the
training data more often. We conjecture this effect is caused by reduction in
the sequences' length that happens as the BPE vocabulary grows. Our findings
can allow a more informed choice of hyper-parameters, that is better tailored
for a particular use-case.
- Abstract(参考訳): nlpにおけるデータ記憶のトレーニングは、(例えば、クローズドブックqa)と望ましくない(個人データ抽出)の両方に有益である。
いずれにせよ、成功したモデルトレーニングは、単語スペル、様々な言語的慣用句、共通の知識を記憶するために、非自明な量の記憶を必要とする。
しかし、NLPモデルの記憶挙動にどのような影響を及ぼすかは分かっていない。
本研究では,Byte-Pair Encoding (BPE) で学習したサブワード語彙のサイズが,学習パラメータ数を制御する場合でも,標準トランスフォーマーモデルの学習データを記憶する能力と傾向に大きな影響を与えることを示す。
サブワード語彙のサイズが大きいため、トランスフォーマーモデルはランダムマッピングをより簡単にフィットし、メンバシップ推論攻撃に対して脆弱であることが分かりました。
同様に、大きなサブワード語彙を持つプロンプトでトランスフォーマーベースの言語モデルも、トレーニングデータをより頻繁に再現する。
我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少に起因すると推測する。
以上の結果から,特定のユースケースに適したハイパーパラメータの選択が可能となった。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR [0.0]
ディープトランスフォーマーモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
トランスフォーマー生成したテキストによるデータ拡張は、孤立言語ではうまく機能するが、形態的にリッチな言語では語彙が爆発する。
そこで我々は,生成したテキストを統計的に派生したサブワードに再学習する,サブワードベースのニューラルテキスト拡張法を提案する。
論文 参考訳(メタデータ) (2020-07-14T10:22:05Z) - Do sequence-to-sequence VAEs learn global features of sentences? [13.43800646539014]
本研究では,列列列構造を用いた自然言語用可変国語オートエンコーダ(VAE)について検討する。
VAEは最初の単語と文章の長さを記憶する傾向があり、限られた有用性を持つ局所的な特徴を生み出す。
これらの変種はよりグローバルな潜在変数、すなわちトピックや感情ラベルをより予測的に学習する。
論文 参考訳(メタデータ) (2020-04-16T14:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。