論文の概要: Improving fit to human reading times via temperature-scaled surprisal
- arxiv url: http://arxiv.org/abs/2311.09325v1
- Date: Wed, 15 Nov 2023 19:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:54:41.095347
- Title: Improving fit to human reading times via temperature-scaled surprisal
- Title(参考訳): 温度スケールによる人間の読書時間への適合性の向上
- Authors: Tong Liu, Iza \v{S}krjanec, Vera Demberg
- Abstract要約: そこで本研究では,ヒトの読解時間の予測因子として,形状確率で算出した温度スケール推定法を提案する。
3つのコーパスにまたがる結果から,このような仮定が読解時間の予測を劇的に改善することが明らかとなった。
また,人間の類似性バイアスを定量化するためのキャリブレーション指標を提案する。
- 参考スコア(独自算出の注目度): 17.728142768267904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Past studies have provided broad support for that words with lower
predictability (i.e., higher surprisal) require more time for comprehension by
using large language models (LLMs) to simulate humans' cognitive load. In
general, these studies have implicitly assumed that the probability scores from
LLMs are accurate, ignoring the discrepancies between human cognition and LLMs
from this standpoint. Inspired by the concept of probability calibration, we
are the first work to focus on the probability distribution for human reading
simulation. We propose to use temperature-scaled surprisal, a surprisal
calculated by shaped probability, to be the predictor of human reading times.
Our results across three corpora consistently revealed that such a surprisal
can drastically improve the prediction of reading times. Setting the
temperature to be approximately 2.5 across all models and datasets can yield up
to an 89% of increase in delta log-likelihood in our setting. We also propose a
calibration metric to quantify the possible human-likeness bias. Further
analysis was done and provided insights into this phenomenon.
- Abstract(参考訳): 過去の研究は、人間の認知負荷をシミュレートするために、大きな言語モデル(llm)を使用することで、予測可能性の低い単語(つまり、より高い超越性)は理解により多くの時間を要するという幅広い支持を与えてきた。
一般に、これらの研究はLLMの確率スコアが正確であると暗黙的に仮定し、人間の認知とLLMの相違を無視している。
確率校正の概念に触発されて,人間の読書シミュレーションにおける確率分布に着目した最初の研究である。
本研究では,人間の読解時間の予測因子として,形状確率で計算した温度スケール推定法を提案する。
3つのコーパスにまたがる結果から, 予測時間を大幅に改善できることが明らかとなった。
すべてのモデルやデータセットの温度を約2.5に設定すると、われわれの設定ではデルタログのような傾向が最大89%増加する。
また,人間の類似性バイアスを定量化するキャリブレーション指標を提案する。
さらなる分析が行われ、この現象に関する洞察が得られた。
関連論文リスト
- Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival
Human Crowd Accuracy [2.184775414778289]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - Predict the Next Word: <Humans exhibit uncertainty in this task and
language models _____> [8.956253634515285]
言語モデル(LM)は、人間の生成したテキストに確率を割り当てるように訓練されている。
我々は、この事実を利用して、人間が「次の単語予測」タスクで示す変動性を再現するLMの能力を評価する。
我々は、GPT2、BLOOM、ChatGPTを評価し、人間の不確実性に対するキャリブレーションがかなり低いことを発見した。
論文 参考訳(メタデータ) (2024-02-27T14:11:32Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Transformer-Based Language Model Surprisal Predicts Human Reading Times
Best with About Two Billion Training Tokens [17.80735287413141]
本研究では,トランスフォーマーをベースとした言語モデル変種から,人間の読解時間を予測する能力に基づいて推定した推定値について検討した。
その結果、現代のモデル能力を持つほとんどの変種からの推定は、約20億のトレーニングトークンを見た後、最も適していることがわかった。
新たに訓練されたより小さなモデル変種は収束時に「転換点」を示し、その後言語モデルの難易度が低下し始め、人間の読解時間に適合する。
論文 参考訳(メタデータ) (2023-04-22T12:50:49Z) - DeFeeNet: Consecutive 3D Human Motion Prediction with Deviation Feedback [23.687223152464988]
既存のワンオフ予測モデルに付加可能な,シンプルで効果的なネットワークであるDeFeeNetを提案する。
提案するネットワークは,基本モデルによらず連続的な人間の動作予測性能を向上させる。
論文 参考訳(メタデータ) (2023-04-10T10:18:23Z) - On the Effect of Anticipation on Reading Times [84.27103313675342]
我々は単語の文脈エントロピーとして予測を運用する。
単語の読解時間に対する文脈的エントロピーの影響を示す重要な証拠が得られた。
論文 参考訳(メタデータ) (2022-11-25T18:58:23Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Prediction Confidence from Neighbors [0.0]
機械学習(ML)モデルがOoD(out-of-distribution)サンプルから正しい予測を抽出することができないことは、重要なアプリケーションにMLを適用する上で大きな障害となる。
特徴空間距離は予測に自信を与える有意義な尺度であることを示す。
これにより、重要なアプリケーションにおけるモデルの早期かつ安全なデプロイが可能になり、常に変化する条件下でのモデルのデプロイには不可欠である。
論文 参考訳(メタデータ) (2020-03-31T09:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。