論文の概要: Eyettention: An Attention-based Dual-Sequence Model for Predicting Human
Scanpaths during Reading
- arxiv url: http://arxiv.org/abs/2304.10784v2
- Date: Thu, 18 May 2023 08:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:34:39.710762
- Title: Eyettention: An Attention-based Dual-Sequence Model for Predicting Human
Scanpaths during Reading
- Title(参考訳): 目視: 注意に基づく読解時の人間のスキャンパス予測のためのデュアルシーケンスモデル
- Authors: Shuwen Deng, David R. Reich, Paul Prasse, Patrick Haller, Tobias
Scheffer and Lena A. J\"ager
- Abstract要約: 我々は、単語列と時間列の固定を同時に処理する最初の二重系列モデルであるEyettentionを開発する。
スキャンパスの予測において、Eyettentionは最先端のモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.9766585251585282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eye movements during reading offer insights into both the reader's cognitive
processes and the characteristics of the text that is being read. Hence, the
analysis of scanpaths in reading have attracted increasing attention across
fields, ranging from cognitive science over linguistics to computer science. In
particular, eye-tracking-while-reading data has been argued to bear the
potential to make machine-learning-based language models exhibit a more
human-like linguistic behavior. However, one of the main challenges in modeling
human scanpaths in reading is their dual-sequence nature: the words are ordered
following the grammatical rules of the language, whereas the fixations are
chronologically ordered. As humans do not strictly read from left-to-right, but
rather skip or refixate words and regress to previous words, the alignment of
the linguistic and the temporal sequence is non-trivial. In this paper, we
develop Eyettention, the first dual-sequence model that simultaneously
processes the sequence of words and the chronological sequence of fixations.
The alignment of the two sequences is achieved by a cross-sequence attention
mechanism. We show that Eyettention outperforms state-of-the-art models in
predicting scanpaths. We provide an extensive within- and across-data set
evaluation on different languages. An ablation study and qualitative analysis
support an in-depth understanding of the model's behavior.
- Abstract(参考訳): 読書中の眼球運動は、読み手の認知過程と読み上げられているテキストの特徴の両方について洞察を与える。
したがって、読書におけるスカンパスの分析は、言語学よりも認知科学からコンピュータ科学まで、様々な分野に注目が集まっている。
特に、視線追跡読取データは、機械学習に基づく言語モデルがより人間らしい言語行動を示す可能性を秘めていると論じられている。
しかし、人間の読みにおけるスカンパスのモデル化における主な課題の1つは、その二列性である: 単語は言語の文法規則に従って順序づけされるが、固定は時系列的に順序付けされる。
人間は左から右へ厳密に読み込むのではなく、単語をスキップまたは修正し、前の単語に回帰するので、言語と時間列のアライメントは自明ではない。
本稿では,単語列と固定の時系列列を同時に処理する最初の二重系列モデルであるeyettentionを開発した。
2つのシーケンスのアライメントは、クロスシーケンスアテンション機構によって達成される。
眼球運動はスキャンパスの予測において最先端のモデルを上回る。
異なる言語に対する広範囲な内部およびデータ集合の評価を提供する。
アブレーション研究と定性的分析は、モデルの振舞いの深い理解を支持する。
関連論文リスト
- Look Hear: Gaze Prediction for Speech-directed Human Attention [49.81718760025951]
本研究は、人物が画像を見て、参照表現を聴いているときの注意の漸進的な予測に焦点を当てた。
我々は,参照表現において各単語が引き起こす人間の定着を予測できるリファラルトランスフォーマーモデル(ART)を開発した。
定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、いくつかの人間の注意パターンを捉えているように見える。
論文 参考訳(メタデータ) (2024-07-28T22:35:08Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts [0.5520145204626482]
読書における眼球運動は精神言語研究において重要な役割を担っている。
眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。
ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
論文 参考訳(メタデータ) (2023-10-24T07:52:19Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Eye-tracking based classification of Mandarin Chinese readers with and
without dyslexia using neural sequence models [7.639036130018945]
文全体の特徴を集約することなく刺激全体の眼球運動を処理する2つの簡単なシーケンスモデルを提案する。
言語刺激を,文脈的単語埋め込みと手作業による言語的特徴抽出という2つの方法でモデルに組み込む。
以上の結果から, (i) 中国語などの書体であっても, シークエンスモデルでは視線上のディプレクシアを分類し, 最先端のパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-18T12:57:30Z) - Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models [7.294729862905325]
我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
論文 参考訳(メタデータ) (2020-06-30T19:51:26Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition [4.301658883577544]
変換器モデルを用いて手書きテキストを認識する非反復的手法を提案する。
我々は文字認識に取り組み、復号化すべき文字列の言語関連依存関係を学習することができる。
論文 参考訳(メタデータ) (2020-05-26T21:15:20Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。