論文の概要: Decoding Reading Goals from Eye Movements
- arxiv url: http://arxiv.org/abs/2410.20779v1
- Date: Mon, 28 Oct 2024 06:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:30.697510
- Title: Decoding Reading Goals from Eye Movements
- Title(参考訳): 視線運動からの読解ゴールの復号
- Authors: Omer Shubi, Cfir Avraham Hadar, Yevgeni Berzak,
- Abstract要約: 日常生活に共通する2種類の読解目標(情報検索と通常の読解)を復号できるかどうかを検討する。
大規模な視線追跡データを用いて、眼球運動とテキストの幅広い最先端モデルに適用する。
眼球運動には,この課題に対する貴重な信号が含まれていることが判明した。
- 参考スコア(独自算出の注目度): 1.3176926720381554
- License:
- Abstract: Readers can have different goals with respect to the text they are reading. Can these goals be decoded from the pattern of their eye movements over the text? In this work, we examine for the first time whether it is possible to decode two types of reading goals that are common in daily life: information seeking and ordinary reading. Using large scale eye-tracking data, we apply to this task a wide range of state-of-the-art models for eye movements and text that cover different architectural and data representation strategies, and further introduce a new model ensemble. We systematically evaluate these models at three levels of generalization: new textual item, new participant, and the combination of both. We find that eye movements contain highly valuable signals for this task. We further perform an error analysis which builds on prior empirical findings on differences between ordinary reading and information seeking and leverages rich textual annotations. This analysis reveals key properties of textual items and participant eye movements that contribute to the difficulty of the task.
- Abstract(参考訳): 読者は、読んでいるテキストに関して異なる目標を持つことができる。
これらのゴールは、テキスト上の目の動きのパターンからデコードできるのか?
本研究では,情報探索と一般読解という,日常生活に共通する2種類の読解目標をデコードできるかどうかを初めて検討する。
大規模視線追跡データを用いて、異なるアーキテクチャとデータ表現戦略をカバーする眼球運動とテキストの幅広い最先端モデルに適用し、さらに新しいモデルアンサンブルを導入する。
我々はこれらのモデルを,新しいテキスト項目,新しい参加者,両者の組み合わせの3段階の一般化で体系的に評価した。
眼球運動には,この課題に対する貴重な信号が含まれていることが判明した。
さらに、通常の読み書きと情報検索の相違に関する先行経験に基づく誤り解析を行い、リッチテキストアノテーションを活用している。
本分析は,作業の難易度に寄与するテキスト項目と参加者の眼球運動の重要な特徴を明らかにする。
関連論文リスト
- Fine-Grained Prediction of Reading Comprehension from Eye Movements [1.2062053320259833]
本研究は, 視線運動からの読解理解を, 通路上の1つの質問のレベルで予測する作業に焦点をあてる。
3つの新しいマルチモーダル言語モデルと,文献から得られた先行モデルのバッテリを用いて,この課題に取り組む。
評価の結果,目の動きは,視力の把握に有用な信号を含んでいることが示唆された。
論文 参考訳(メタデータ) (2024-10-06T13:55:06Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - An Analysis of Reader Engagement in Literary Fiction through Eye
Tracking and Linguistic Features [11.805980147608178]
本研究は,読み手がいかに興味を抱くかを予測する上で,テキストの様々な性質の重要性について分析した。
フィクションで読者を魅了するものの理解を深めることによって、創造的な物語生成に使用されるモデルにより良い情報を与えることができる。
論文 参考訳(メタデータ) (2023-06-06T22:14:59Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - CLRGaze: Contrastive Learning of Representations for Eye Movement
Signals [0.0]
眼球運動の特徴ベクトルを自己指導的に学習する。
我々は、対照的な学習アプローチを採用し、深層ニューラルネットワークが顕著な視線パターンと粒度のパターンを識別することを奨励する一連のデータ変換を提案する。
論文 参考訳(メタデータ) (2020-10-25T06:12:06Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。