論文の概要: Entropy- and Distance-Based Predictors From GPT-2 Attention Patterns
Predict Reading Times Over and Above GPT-2 Surprisal
- arxiv url: http://arxiv.org/abs/2212.11185v1
- Date: Wed, 21 Dec 2022 16:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:55:56.230973
- Title: Entropy- and Distance-Based Predictors From GPT-2 Attention Patterns
Predict Reading Times Over and Above GPT-2 Surprisal
- Title(参考訳): GPT-2注意パターンからのエントロピーと距離に基づく予測器
- Authors: Byung-Doh Oh, William Schuler
- Abstract要約: この研究はまず、自己注意の拡散度を定量化するエントロピーベースの予測器と、時間経過による注意パターンの漸進的な変化を捉える距離ベースの予測器を定義する。
GPT-2言語モデルから算出した予測器を用いた回帰実験により、これらの予測器は、GPT-2サプリサルを含む厳密なベースライン上での、保留中のセルフペースト読み取りおよびアイトラッキングデータに対して、はるかに優れた適合性を提供することが示された。
- 参考スコア(独自算出の注目度): 9.909170013118775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models are trained to make predictions about
the next word by aggregating representations of previous tokens through their
self-attention mechanism. In the field of cognitive modeling, such attention
patterns have recently been interpreted as embodying the process of cue-based
retrieval, in which attention over multiple targets is taken to generate
interference and latency during retrieval. Under this framework, this work
first defines an entropy-based predictor that quantifies the diffuseness of
self-attention, as well as distance-based predictors that capture the
incremental change in attention patterns across timesteps. Moreover, following
recent studies that question the informativeness of attention weights, we also
experiment with alternative methods for incorporating vector norms into
attention weights. Regression experiments using predictors calculated from the
GPT-2 language model show that these predictors deliver a substantially better
fit to held-out self-paced reading and eye-tracking data over a rigorous
baseline including GPT-2 surprisal. Additionally, the distance-based predictors
generally demonstrated higher predictive power, with effect sizes of up to 6.59
ms per standard deviation on self-paced reading times (compared to 2.82 ms for
surprisal) and 1.05 ms per standard deviation on eye-gaze durations (compared
to 3.81 ms for surprisal).
- Abstract(参考訳): トランスフォーマーをベースとした大規模言語モデルは,自己認識機構を通じて先行トークンの表現を集約することにより,次の単語の予測を行うように訓練されている。
認知モデリングの分野では,最近このような注意パターンが,複数の対象に対して注意を向け,検索中の干渉や遅延を発生させるcueベース検索の過程を具現化していると解釈されている。
この枠組みの下で、この研究はまず、自己注意の拡散性を定量化するエントロピーベースの予測器と、時間経過を通して注意パターンの漸進的な変化を捉える距離ベースの予測器を定義する。
また,注意重み付けのインフォメーション性に疑問を呈する最近の研究に続いて,注意重み付けにベクトルノルムを組み込む別の方法も実験している。
gpt-2言語モデルから計算された予測器を用いた回帰実験により、これらの予測器はgpt-2サープリサルを含む厳密なベースライン上で保持された自己ペースの読み取りと視線追跡データにかなり適合することが示された。
さらに、距離ベースの予測器は一般的により高い予測力を示し、セルフペースの読み取り時間では標準偏差が6.59ms、視線時間では標準偏差が2.82ms、視線時間では1.05msである(平均偏差は3.81ms)。
関連論文リスト
- Machine Learning Predictors for Min-Entropy Estimation [0.4374837991804085]
本研究では、ランダム数生成器(RNG)の最小エントロピー推定における機械学習予測器の適用について検討する。
RNGの最小エントロピー評価において,対象ビット数を考慮することの重要性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:15:01Z) - Selective Temporal Knowledge Graph Reasoning [70.11788354442218]
時間的知識グラフ(TKG)は、与えられた歴史的事実に基づいて将来の事実を予測することを目的としている。
既存のTKG推論モデルは、不確実な予測を控えることができない。
本稿では,既存のモデルが無差別な予測ではなく選択的に行うのに役立つ,TKG推論の棄却機構を提案する。
論文 参考訳(メタデータ) (2024-04-02T06:56:21Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Towards Better Long-range Time Series Forecasting using Generative
Forecasting [29.046659097553515]
我々は生成予測(GenF)と呼ばれる新しい予測戦略を提案する。
GenFは次の数ステップで合成データを生成し、生成および観測されたデータに基づいて長距離予測を行う。
予測性能(絶対誤差)は5%から11%向上する一方、パラメータは15%から50%減少する。
論文 参考訳(メタデータ) (2022-12-09T13:35:39Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Meta-Forecasting by combining Global DeepRepresentations with Local
Adaptation [12.747008878068314]
メタグローバルローカル自動回帰(Meta-GLAR)と呼ばれる新しい予測手法を導入する。
それは、リカレントニューラルネットワーク(RNN)によって生成された表現からワンステップアヘッド予測へのマッピングをクローズドフォームで学習することで、各時系列に適応する。
本手法は,先行研究で報告されたサンプル外予測精度において,最先端の手法と競合する。
論文 参考訳(メタデータ) (2021-11-05T11:45:02Z) - Multi-axis Attentive Prediction for Sparse EventData: An Application to
Crime Prediction [16.654369376687296]
本稿では,2つの観測角度による事象伝播の短期的ダイナミクスと長期的意味論の両方を抽出するための,純粋に注意的なアプローチを提案する。
提案したコントラスト学習目的は,MAPSEDのセマンティクスとイベントのダイナミックスを捉える能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-05T02:38:46Z) - Feature-weighted Stacking for Nonseasonal Time Series Forecasts: A Case
Study of the COVID-19 Epidemic Curves [0.0]
本研究では,非シーズン時間帯での利用可能性について,予測におけるアンサンブル手法について検討する。
予備予測段階における予測能力を証明する2つの予測モデルと2つのメタ機能からなる重畳アンサンブルを用いて遅延データ融合を提案する。
論文 参考訳(メタデータ) (2021-08-19T14:44:46Z) - When in Doubt: Neural Non-Parametric Uncertainty Quantification for
Epidemic Forecasting [70.54920804222031]
既存の予測モデルは不確実な定量化を無視し、誤校正予測をもたらす。
不確実性を考慮した時系列予測のためのディープニューラルネットワークの最近の研究にもいくつかの制限がある。
本稿では,予測タスクを確率的生成過程としてモデル化し,EPIFNPと呼ばれる機能的ニューラルプロセスモデルを提案する。
論文 参考訳(メタデータ) (2021-06-07T18:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。