論文の概要: Improving fit to human reading times via temperature-scaled surprisal
- arxiv url: http://arxiv.org/abs/2311.09325v1
- Date: Wed, 15 Nov 2023 19:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:54:41.095347
- Title: Improving fit to human reading times via temperature-scaled surprisal
- Title(参考訳): 温度スケールによる人間の読書時間への適合性の向上
- Authors: Tong Liu, Iza \v{S}krjanec, Vera Demberg
- Abstract要約: そこで本研究では,ヒトの読解時間の予測因子として,形状確率で算出した温度スケール推定法を提案する。
3つのコーパスにまたがる結果から,このような仮定が読解時間の予測を劇的に改善することが明らかとなった。
また,人間の類似性バイアスを定量化するためのキャリブレーション指標を提案する。
- 参考スコア(独自算出の注目度): 17.728142768267904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Past studies have provided broad support for that words with lower
predictability (i.e., higher surprisal) require more time for comprehension by
using large language models (LLMs) to simulate humans' cognitive load. In
general, these studies have implicitly assumed that the probability scores from
LLMs are accurate, ignoring the discrepancies between human cognition and LLMs
from this standpoint. Inspired by the concept of probability calibration, we
are the first work to focus on the probability distribution for human reading
simulation. We propose to use temperature-scaled surprisal, a surprisal
calculated by shaped probability, to be the predictor of human reading times.
Our results across three corpora consistently revealed that such a surprisal
can drastically improve the prediction of reading times. Setting the
temperature to be approximately 2.5 across all models and datasets can yield up
to an 89% of increase in delta log-likelihood in our setting. We also propose a
calibration metric to quantify the possible human-likeness bias. Further
analysis was done and provided insights into this phenomenon.
- Abstract(参考訳): 過去の研究は、人間の認知負荷をシミュレートするために、大きな言語モデル(llm)を使用することで、予測可能性の低い単語(つまり、より高い超越性)は理解により多くの時間を要するという幅広い支持を与えてきた。
一般に、これらの研究はLLMの確率スコアが正確であると暗黙的に仮定し、人間の認知とLLMの相違を無視している。
確率校正の概念に触発されて,人間の読書シミュレーションにおける確率分布に着目した最初の研究である。
本研究では,人間の読解時間の予測因子として,形状確率で計算した温度スケール推定法を提案する。
3つのコーパスにまたがる結果から, 予測時間を大幅に改善できることが明らかとなった。
すべてのモデルやデータセットの温度を約2.5に設定すると、われわれの設定ではデルタログのような傾向が最大89%増加する。
また,人間の類似性バイアスを定量化するキャリブレーション指標を提案する。
さらなる分析が行われ、この現象に関する洞察が得られた。
関連論文リスト
- XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times [15.738530737312335]
近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
論文 参考訳(メタデータ) (2024-02-03T20:22:54Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - You Can Do Better! If You Elaborate the Reason When Making Prediction [13.658942796267015]
本論文では,大きな学習済み言語モデルと組み合わせた新しいニューラル予測フレームワークを提案し,予測を行い,それに対応する説明を同時に生成する。
中国の医学的複数選択質問応答, 英語自然言語推論, 常識質問回答タスクに関する予備的実証的研究を行った。
また,提案手法は,3つのデータセットに対する予測精度の向上も達成し,意思決定プロセスにおける説明の生成による予測のメリットが示唆された。
論文 参考訳(メタデータ) (2021-03-27T14:55:19Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。