論文の概要: Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times
- arxiv url: http://arxiv.org/abs/2402.02255v1
- Date: Sat, 3 Feb 2024 20:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:01:54.472779
- Title: Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times
- Title(参考訳): 大規模言語モデルのサイズ, 学習データ量, 読み出し時間に対する素人のフィットの逆相関の頻度による説明
- Authors: Byung-Doh Oh, Shisen Yue, William Schuler
- Abstract要約: 近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
- 参考スコア(独自算出の注目度): 15.738530737312335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that as Transformer-based language models become
larger and are trained on very large amounts of data, the fit of their
surprisal estimates to naturalistic human reading times degrades. The current
work presents a series of analyses showing that word frequency is a key
explanatory factor underlying these two trends. First, residual errors from
four language model families on four corpora show that the inverse correlation
between model size and fit to reading times is the strongest on the subset of
least frequent words, which is driven by excessively accurate predictions of
larger model variants. Additionally, training dynamics reveal that during later
training steps, all model variants learn to predict rare words and that larger
model variants do so more accurately, which explains the detrimental effect of
both training data amount and model size on fit to reading times. Finally, a
feature attribution analysis demonstrates that larger model variants are able
to accurately predict rare words based on both an effectively longer context
window size as well as stronger local associations compared to smaller model
variants. Taken together, these results indicate that Transformer-based
language models' surprisal estimates diverge from human-like expectations due
to the superhumanly complex associations they learn for predicting rare words.
- Abstract(参考訳): 最近の研究では、トランスフォーマティブベースの言語モデルがより大きくなり、非常に大量のデータに基づいてトレーニングされるにつれて、その推定値が自然主義的な人間の読書時間に適合することが示されている。
現在の研究は、単語頻度がこれらの2つの傾向の根底にある重要な説明要因であることを示す一連の分析結果を示している。
第一に、4つのコーパス上の4つの言語モデルファミリーの残差誤差は、モデルサイズと読解時間との逆相関が、より大きいモデル変異の過度に正確な予測によって駆動される最小頻度単語のサブセット上で最強であることを示している。
さらに、トレーニングダイナミクスは、後続のトレーニングステップの間、すべてのモデル変種が希少な単語を予測することを学習し、より大きなモデル変種がより正確に行うことを明らかにし、トレーニングデータ量とモデルサイズの両方が読み出し時間に適合する有害な影響を説明する。
最後に、機能帰属分析により、より大きいモデル変種は、効果的に長いコンテキストウィンドウサイズと、より小さなモデル変種と比較して強い局所関係の両方に基づいて、レアワードを正確に予測できることが示される。
これらの結果から,トランスフォーマーに基づく言語モデルの推定は,稀な単語を予測するために学習する超人的な複雑な関連性により,人間的な期待から逸脱することが示唆された。
関連論文リスト
- Transformer-Based Language Model Surprisal Predicts Human Reading Times
Best with About Two Billion Training Tokens [17.80735287413141]
本研究では,トランスフォーマーをベースとした言語モデル変種から,人間の読解時間を予測する能力に基づいて推定した推定値について検討した。
その結果、現代のモデル能力を持つほとんどの変種からの推定は、約20億のトレーニングトークンを見た後、最も適していることがわかった。
新たに訓練されたより小さなモデル変種は収束時に「転換点」を示し、その後言語モデルの難易度が低下し始め、人間の読解時間に適合する。
論文 参考訳(メタデータ) (2023-04-22T12:50:49Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - Lexical Generalization Improves with Larger Models and Longer Training [42.024050065980845]
本稿では,自然言語推論,パラフレーズ検出,読解理解における語彙重なりの活用について分析する。
より大型のモデルでは、語彙的な重複を採用することへの感受性がはるかに低いことが分かりました。
論文 参考訳(メタデータ) (2022-10-23T09:20:11Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。