論文の概要: Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading
- arxiv url: http://arxiv.org/abs/2505.02872v1
- Date: Sun, 04 May 2025 13:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.052837
- Title: Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading
- Title(参考訳): 読書時の眼球運動からゴールを求めるオープンエンディング情報のデコード
- Authors: Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak,
- Abstract要約: オープンエンド読解目標を視線運動から自動的に復号できるかどうかを初めて問う。
我々は、ゴール分類とゴール再構成のための眼球運動とテキストを組み合わせた、識別的および生成的マルチモーダルLLMを開発し、比較する。
本実験は両課題において有意な成功を収め,眼球運動からLLMが読者のテキスト特異的目標に関する情報を抽出できることを示唆した。
- 参考スコア(独自算出の注目度): 1.2062053320259833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When reading, we often have specific information that interests us in a text. For example, you might be reading this paper because you are curious about LLMs for eye movements in reading, the experimental design, or perhaps you only care about the question ``but does it work?''. More broadly, in daily life, people approach texts with any number of text-specific goals that guide their reading behavior. In this work, we ask, for the first time, whether open-ended reading goals can be automatically decoded from eye movements in reading. To address this question, we introduce goal classification and goal reconstruction tasks and evaluation frameworks, and use large-scale eye tracking for reading data in English with hundreds of text-specific information seeking tasks. We develop and compare several discriminative and generative multimodal LLMs that combine eye movements and text for goal classification and goal reconstruction. Our experiments show considerable success on both tasks, suggesting that LLMs can extract valuable information about the readers' text-specific goals from eye movements.
- Abstract(参考訳): 読むとき、私たちはテキストで興味を持つ特定の情報を持っていることが多い。
例えば、あなたがこの論文を読んでいるのは、読者の目の動きや実験的なデザインのLSMに興味があるからです。
より広範に、日々の生活において、人々は、読書行動のガイドとなる、テキスト固有の目標を何個でも備えたテキストに近づきます。
本研究は,視線運動からオープンエンド読解目標を自動的に復号できるかどうかを初めて問うものである。
この問題に対処するために、ゴール分類とゴール再構築タスクと評価フレームワークを導入し、大規模アイトラッキングを用いて、数百のテキスト固有情報検索タスクを英語で読み取る。
我々は、ゴール分類とゴール再構成のための眼球運動とテキストを組み合わせた、識別的および生成的マルチモーダルLLMを開発し、比較する。
本実験は両課題において有意な成功を収め,眼球運動からLLMが読者のテキスト特異的目標に関する情報を抽出できることを示唆した。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Decoding Reading Goals from Eye Movements [1.3176926720381554]
本研究は,情報探索と一般読解の2種類の共通読解目標を区別できるかどうかを検討する。
大規模な視線追跡データを用いて、様々なアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この問題に対処する。
我々は、参加者がテキストを読み終えるずっと前に、正確な予測をリアルタイムで行うことができることを発見した。
論文 参考訳(メタデータ) (2024-10-28T06:40:03Z) - Fine-Grained Prediction of Reading Comprehension from Eye Movements [1.2062053320259833]
本研究は, 視線運動からの読解理解を, 通路上の1つの質問のレベルで予測する作業に焦点をあてる。
3つの新しいマルチモーダル言語モデルと,文献から得られた先行モデルのバッテリを用いて,この課題に取り組む。
評価の結果,目の動きは,視力の把握に有用な信号を含んでいることが示唆された。
論文 参考訳(メタデータ) (2024-10-06T13:55:06Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - Multimedia Generative Script Learning for Task Planning [58.73725388387305]
我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-08-25T19:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。