論文の概要: Decoding Reading Goals from Eye Movements
- arxiv url: http://arxiv.org/abs/2410.20779v3
- Date: Thu, 27 Feb 2025 05:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:53:31.496889
- Title: Decoding Reading Goals from Eye Movements
- Title(参考訳): 視線運動からの読解ゴールの復号
- Authors: Omer Shubi, Cfir Avraham Hadar, Yevgeni Berzak,
- Abstract要約: 本研究は,情報探索と一般読解の2種類の共通読解目標を区別できるかどうかを検討する。
大規模な視線追跡データを用いて、様々なアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この問題に対処する。
我々は、参加者がテキストを読み終えるずっと前に、正確な予測をリアルタイムで行うことができることを発見した。
- 参考スコア(独自算出の注目度): 1.3176926720381554
- License:
- Abstract: Readers can have different goals with respect to the text that they are reading. Can these goals be decoded from their eye movements over the text? In this work, we examine for the first time whether it is possible to distinguish between two types of common reading goals: information seeking and ordinary reading for comprehension. Using large-scale eye tracking data, we address this task with a wide range of models that cover different architectural and data representation strategies, and further introduce a new model ensemble. We find that transformer-based models with scanpath representations coupled with language modeling solve it most successfully, and that accurate predictions can be made in real time, long before the participant finished reading the text. We further introduce a new method for model performance analysis based on mixed effect modeling. Combining this method with rich textual annotations reveals key properties of textual items and participants that contribute to the difficulty of the task, and improves our understanding of the variability in eye movement patterns across the two reading regimes.
- Abstract(参考訳): 読者は、読んでいるテキストに関して異なる目標を持つことができる。
これらのゴールは、テキスト上の彼らの目の動きからデコードできますか?
本研究では,情報探索と一般読解という2種類の共通読解目標を区別できるかどうかを初めて検討する。
大規模視線追跡データを用いて、異なるアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この課題に対処し、さらに新しいモデルアンサンブルを導入する。
言語モデリングと組み合わされたスカンパス表現を用いたトランスフォーマーモデルが最もうまく解き、参加者がテキストを読み終えるずっと前に正確な予測をリアルタイムで行うことができることがわかった。
さらに,混合効果モデルに基づくモデル性能解析の新しい手法を提案する。
本手法とリッチテキストアノテーションを組み合わせることで,課題の難易度に寄与するテキスト項目と参加者のキーとなる特性が明らかとなり,2つの読解体制における眼球運動パターンの多様性の理解が向上する。
関連論文リスト
- Déjà Vu? Decoding Repeated Reading from Eye Movements [1.1652979442763178]
視線移動パターンに基づいて、読者が以前テキストに遭遇したかどうかを自動的に判断できるかどうかを問う。
我々はこのタスクの2つの変種を導入し、特徴ベースモデルとニューラルモデルの両方を用いて大きな成功を収めた。
本稿では,モデルが使用する情報に対する洞察を得られるモデル性能の分析を行い,その一方で,予測モデリングを解析ツールとして活用し,繰り返し読み出しにおけるメモリの役割をよりよく評価する。
論文 参考訳(メタデータ) (2025-02-16T09:59:29Z) - Fine-Grained Prediction of Reading Comprehension from Eye Movements [1.2062053320259833]
本研究は, 視線運動からの読解理解を, 通路上の1つの質問のレベルで予測する作業に焦点をあてる。
3つの新しいマルチモーダル言語モデルと,文献から得られた先行モデルのバッテリを用いて,この課題に取り組む。
評価の結果,目の動きは,視力の把握に有用な信号を含んでいることが示唆された。
論文 参考訳(メタデータ) (2024-10-06T13:55:06Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts [0.5520145204626482]
読書における眼球運動は精神言語研究において重要な役割を担っている。
眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。
ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
論文 参考訳(メタデータ) (2023-10-24T07:52:19Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。