論文の概要: Surprisal from Larger Transformer-based Language Models Predicts fMRI Data More Poorly
- arxiv url: http://arxiv.org/abs/2506.11338v1
- Date: Thu, 12 Jun 2025 22:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.596563
- Title: Surprisal from Larger Transformer-based Language Models Predicts fMRI Data More Poorly
- Title(参考訳): 変圧器を用いた大規模言語モデルによるfMRIデータの予測
- Authors: Yi-Chien Lin, William Schuler,
- Abstract要約: 近年の研究では,トランスフォーマーモデルによるパープレクシティと,読み出し時間に対する推定値の予測力の正の関係が観察されている。
本研究は,脳画像データに基づいて,3つの言語群にまたがる17の事前学習トランスフォーマーモデルから推定される推定値の予測力を評価する。
- 参考スコア(独自算出の注目度): 9.45662351979314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Transformers become more widely incorporated into natural language processing tasks, there has been considerable interest in using surprisal from these models as predictors of human sentence processing difficulty. Recent work has observed a positive relationship between Transformer-based models' perplexity and the predictive power of their surprisal estimates on reading times, showing that language models with more parameters and trained on more data are less predictive of human reading times. However, these studies focus on predicting latency-based measures (i.e., self-paced reading times and eye-gaze durations) with surprisal estimates from Transformer-based language models. This trend has not been tested on brain imaging data. This study therefore evaluates the predictive power of surprisal estimates from 17 pre-trained Transformer-based models across three different language families on two functional magnetic resonance imaging datasets. Results show that the positive relationship between model perplexity and model fit still obtains, suggesting that this trend is not specific to latency-based measures and can be generalized to neural measures.
- Abstract(参考訳): 自然言語処理タスクにトランスフォーマーが広く取り入れられるようになるにつれ、人間の文章処理の難しさの予測因子としてこれらのモデルからの仮定を使うことに大きな関心が寄せられている。
近年の研究では、トランスフォーマーモデルによるパープレクシティと、その予備推定値の読み時間に対する予測力の間に正の相関が見られ、より多くのパラメータを持ち、より多くのデータで訓練された言語モデルは、人間の読み時間よりも予測力が少ないことが示されている。
しかし,これらの研究は,Transformerに基づく言語モデルから推定した推定値を用いて,レイテンシに基づく測定値(セルフペース読解時間,アイ・ゲイズ時間)の予測に重点を置いている。
この傾向は脳画像データではテストされていない。
そこで本研究では,2つの機能的磁気共鳴イメージングデータセットを用いて,3つの言語群にまたがる17の事前学習トランスフォーマーモデルから推定される推定量の予測力を評価した。
結果,モデルパープレキシティとモデル適合性の正の関係は依然として得られており,この傾向はレイテンシに基づく尺度に特化せず,ニューラル測度に一般化できることが示唆された。
関連論文リスト
- Modeling cognitive processes of natural reading with transformer-based Language Models [2.048226951354646]
これまでの研究では、NグラムやLSTMネットワークのようなモデルが、眼球運動の振る舞いを説明する際の予測可能性の影響を部分的に説明できることが示されている。
本研究では, トランスフォーマーモデル(GPT2, LLaMA-7B, LLaMA2-7B)を評価し, この関係性について検討した。
以上の結果から,これらの構造は,リオ植物学のスペイン語読解者から記録されたガゼ期間の変動を説明する上で,先行モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-05-16T17:47:58Z) - Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times [15.738530737312335]
近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
論文 参考訳(メタデータ) (2024-02-03T20:22:54Z) - Transformer-Based Language Model Surprisal Predicts Human Reading Times
Best with About Two Billion Training Tokens [17.80735287413141]
本研究では,トランスフォーマーをベースとした言語モデル変種から,人間の読解時間を予測する能力に基づいて推定した推定値について検討した。
その結果、現代のモデル能力を持つほとんどの変種からの推定は、約20億のトレーニングトークンを見た後、最も適していることがわかった。
新たに訓練されたより小さなモデル変種は収束時に「転換点」を示し、その後言語モデルの難易度が低下し始め、人間の読解時間に適合する。
論文 参考訳(メタデータ) (2023-04-22T12:50:49Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。