論文の概要: N-gram-like Language Models Predict Reading Time Best
- arxiv url: http://arxiv.org/abs/2603.09872v1
- Date: Tue, 10 Mar 2026 16:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.453958
- Title: N-gram-like Language Models Predict Reading Time Best
- Title(参考訳): N-gram-like Language Models Predicting Reading Time Best
- Authors: James A. Michaelov, Roger P. Levy,
- Abstract要約: 近年の研究では、現代の言語モデルが次の単語の予測に長けていることが判明し、その確率は読解時間を予測するために悪化している。
これは、最先端のトランスフォーマー言語モデルによって学習されたより複雑な統計よりも、単純なn-gram統計に敏感な読み込み時間で説明できる。
- 参考スコア(独自算出の注目度): 4.66948282422762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has found that contemporary language models such as transformers can become so good at next-word prediction that the probabilities they calculate become worse for predicting reading time. In this paper, we propose that this can be explained by reading time being sensitive to simple n-gram statistics rather than the more complex statistics learned by state-of-the-art transformer language models. We demonstrate that the neural language models whose predictions are most correlated with n-gram probability are also those that calculate probabilities that are the most correlated with eye-tracking-based metrics of reading time on naturalistic text.
- Abstract(参考訳): 近年の研究では、トランスフォーマーのような現代言語モデルが、次の単語の予測に長けていることが判明している。
本稿では,現状の変換言語モデルによって学習されるより複雑な統計よりも,単純なn-gram統計に敏感な読解時間で説明できることを示す。
また,n-gramの確率に最も相関しているニューラルネットワークモデルは,視線追跡に基づく自然文読解時間の指標と最も相関した確率を計算するモデルであることを示した。
関連論文リスト
- On the scaling relationship between cloze probabilities and language model next-token prediction [13.028726121412427]
より大きな言語モデルは、眼球運動や読解時間データにより良い予測力を持つことを示す。
より大規模なモデルは、次のトークンの高品質な見積もりと、それらが語彙的共起統計に敏感でないため、クローゼデータで生産される確率を割り当てる。
論文 参考訳(メタデータ) (2026-02-19T21:29:55Z) - Surprisal from Larger Transformer-based Language Models Predicts fMRI Data More Poorly [9.45662351979314]
近年の研究では,トランスフォーマーモデルによるパープレクシティと,読み出し時間に対する推定値の予測力の正の関係が観察されている。
本研究は,脳画像データに基づいて,3つの言語群にまたがる17の事前学習トランスフォーマーモデルから推定される推定値の予測力を評価する。
論文 参考訳(メタデータ) (2025-06-12T22:18:48Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Temperature-scaling surprisal estimates improve fit to human reading times -- but does it do so for the "right reasons"? [15.773775387121097]
大規模な言語モデルのキャリブレーションは,通常モデルサイズによって改善されることを示す。
温度スケーリングの確率は、読み取り時間に体系的に適合することがわかった。
論文 参考訳(メタデータ) (2023-11-15T19:34:06Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Language Models Explain Word Reading Times Better Than Empirical
Predictability [20.38397241720963]
認知読解研究における従来のアプローチは、文章の文脈から単語を予測することは、完結確率によって最もよく捉えられると仮定している。
確率言語モデルは、CCPよりも構文的および意味的効果の深い説明を提供する。
現在の単語のN-gramとRNN確率は、トピックモデルやCCPと比較して、より一貫して読み出し性能を予測できる。
論文 参考訳(メタデータ) (2022-02-02T16:38:43Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。