論文の概要: The Inverse Scaling Effect of Pre-Trained Language Model Surprisal Is Not Due to Data Leakage
- arxiv url: http://arxiv.org/abs/2506.01172v1
- Date: Sun, 01 Jun 2025 21:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.705916
- Title: The Inverse Scaling Effect of Pre-Trained Language Model Surprisal Is Not Due to Data Leakage
- Title(参考訳): 事前学習言語モデルの逆スケーリング効果はデータ漏洩によるものではない
- Authors: Byung-Doh Oh, Hongao Zhu, William Schuler,
- Abstract要約: データ漏洩は、訓練中に言語モデルがテキスト刺激を見る原因となったデータ漏洩によるものかもしれないと推測されている。
本稿では,この問題を大規模に扱うための2つの研究について述べる。
最初の研究は、2つの事前学習データセットにおける5つの自然な読解時間コーパスのリークが、トークンの$n$-gramの重複の長さと頻度の点で比較的少ないことを示している。
第2の研究では,読解時間コーパスと最小限に重なる「解答自由」データに基づいて学習したモデルを用いて,読解時間に対する言語モデルサイズと推定値の適合性の間の負の関係を再現した。
- 参考スコア(独自算出の注目度): 13.411790077470222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In psycholinguistic modeling, surprisal from larger pre-trained language models has been shown to be a poorer predictor of naturalistic human reading times. However, it has been speculated that this may be due to data leakage that caused language models to see the text stimuli during training. This paper presents two studies to address this concern at scale. The first study reveals relatively little leakage of five naturalistic reading time corpora in two pre-training datasets in terms of length and frequency of token $n$-gram overlap. The second study replicates the negative relationship between language model size and the fit of surprisal to reading times using models trained on 'leakage-free' data that overlaps only minimally with the reading time corpora. Taken together, this suggests that previous results using language models trained on these corpora are not driven by the effects of data leakage.
- Abstract(参考訳): 心理言語学モデルでは、より大きな事前訓練された言語モデルからの推測は、自然主義的な人間の読書時間の予測に劣っていることが示されている。
しかし、これは、訓練中に言語モデルがテキスト刺激を見る原因となったデータ漏洩によるものかもしれないと推測されている。
本稿では,この問題を大規模に扱うための2つの研究について述べる。
最初の研究は、2つの事前学習データセットにおける5つの自然な読解時間コーパスのリークが、トークンの$n$-gramの重複の長さと頻度の点で比較的少ないことを示している。
第2の研究では,読解時間コーパスと最小限に重なる「解答自由」データに基づいて学習したモデルを用いて,読解時間に対する言語モデルサイズと推定値の適合性の間の負の関係を再現した。
まとめると、これらのコーパスでトレーニングされた言語モデルを用いた以前の結果は、データ漏洩の影響によるものではないことが示唆される。
関連論文リスト
- Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times [15.738530737312335]
近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
論文 参考訳(メタデータ) (2024-02-03T20:22:54Z) - Transformer-Based Language Model Surprisal Predicts Human Reading Times
Best with About Two Billion Training Tokens [17.80735287413141]
本研究では,トランスフォーマーをベースとした言語モデル変種から,人間の読解時間を予測する能力に基づいて推定した推定値について検討した。
その結果、現代のモデル能力を持つほとんどの変種からの推定は、約20億のトレーニングトークンを見た後、最も適していることがわかった。
新たに訓練されたより小さなモデル変種は収束時に「転換点」を示し、その後言語モデルの難易度が低下し始め、人間の読解時間に適合する。
論文 参考訳(メタデータ) (2023-04-22T12:50:49Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。