論文の概要: Decoding Reading Goals from Eye Movements
- arxiv url: http://arxiv.org/abs/2410.20779v2
- Date: Sun, 16 Feb 2025 10:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:16.773676
- Title: Decoding Reading Goals from Eye Movements
- Title(参考訳): 視線運動からの読解ゴールの復号
- Authors: Omer Shubi, Cfir Avraham Hadar, Yevgeni Berzak,
- Abstract要約: 本研究は,情報探索と一般読解の2種類の共通読解目標を区別できるかどうかを検討する。
大規模な視線追跡データを用いて、様々なアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この問題に対処する。
我々は、参加者がテキストを読み終えるずっと前に、正確な予測をリアルタイムで行うことができることを発見した。
- 参考スコア(独自算出の注目度): 1.3176926720381554
- License:
- Abstract: Readers can have different goals with respect to the text that they are reading. Can these goals be decoded from their eye movements over the text? In this work, we examine for the first time whether it is possible to distinguish between two types of common reading goals: information seeking and ordinary reading for comprehension. Using large-scale eye tracking data, we address this task with a wide range of models that cover different architectural and data representation strategies, and further introduce a new model ensemble. We find that transformer-based models with scanpath representations coupled with language modeling solve it most successfully, and that accurate predictions can be made in real time, long before the participant finished reading the text. We further introduce a new method for model performance analysis based on mixed effect modeling. Combining this method with rich textual annotations reveals key properties of textual items and participants that contribute to the difficulty of the task, and improves our understanding of the variability in eye movement patterns across the two reading regimes.
- Abstract(参考訳): 読者は、読んでいるテキストに関して異なる目標を持つことができる。
これらのゴールは、テキスト上の彼らの目の動きからデコードできますか?
本研究では,情報探索と一般読解という2種類の共通読解目標を区別できるかどうかを初めて検討する。
大規模視線追跡データを用いて、異なるアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この課題に対処し、さらに新しいモデルアンサンブルを導入する。
言語モデリングと組み合わされたスカンパス表現を用いたトランスフォーマーモデルが最もうまく解き、参加者がテキストを読み終えるずっと前に正確な予測をリアルタイムで行うことができることがわかった。
さらに,混合効果モデルに基づくモデル性能解析の新しい手法を提案する。
本手法とリッチテキストアノテーションを組み合わせることで,課題の難易度に寄与するテキスト項目と参加者のキーとなる特性が明らかとなり,2つの読解体制における眼球運動パターンの多様性の理解が向上する。
関連論文リスト
- Fine-Grained Prediction of Reading Comprehension from Eye Movements [1.2062053320259833]
本研究は, 視線運動からの読解理解を, 通路上の1つの質問のレベルで予測する作業に焦点をあてる。
3つの新しいマルチモーダル言語モデルと,文献から得られた先行モデルのバッテリを用いて,この課題に取り組む。
評価の結果,目の動きは,視力の把握に有用な信号を含んでいることが示唆された。
論文 参考訳(メタデータ) (2024-10-06T13:55:06Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - An Analysis of Reader Engagement in Literary Fiction through Eye
Tracking and Linguistic Features [11.805980147608178]
本研究は,読み手がいかに興味を抱くかを予測する上で,テキストの様々な性質の重要性について分析した。
フィクションで読者を魅了するものの理解を深めることによって、創造的な物語生成に使用されるモデルにより良い情報を与えることができる。
論文 参考訳(メタデータ) (2023-06-06T22:14:59Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - CLRGaze: Contrastive Learning of Representations for Eye Movement
Signals [0.0]
眼球運動の特徴ベクトルを自己指導的に学習する。
我々は、対照的な学習アプローチを採用し、深層ニューラルネットワークが顕著な視線パターンと粒度のパターンを識別することを奨励する一連のデータ変換を提案する。
論文 参考訳(メタデータ) (2020-10-25T06:12:06Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。