Fugu-MT 論文翻訳(概要): Decoding Reading Goals from Eye Movements

論文の概要: Decoding Reading Goals from Eye Movements

arxiv url: http://arxiv.org/abs/2410.20779v2
Date: Sun, 16 Feb 2025 10:19:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.099313
Title: Decoding Reading Goals from Eye Movements
Title（参考訳）: 視線運動からの読解ゴールの復号
Authors: Omer Shubi, Cfir Avraham Hadar, Yevgeni Berzak,
Abstract要約: 本研究は,情報探索と一般読解の2種類の共通読解目標を区別できるかどうかを検討する。大規模な視線追跡データを用いて、様々なアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この問題に対処する。我々は、参加者がテキストを読み終えるずっと前に、正確な予測をリアルタイムで行うことができることを発見した。
参考スコア（独自算出の注目度）: 1.3176926720381554
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Readers can have different goals with respect to the text that they are reading. Can these goals be decoded from their eye movements over the text? In this work, we examine for the first time whether it is possible to distinguish between two types of common reading goals: information seeking and ordinary reading for comprehension. Using large-scale eye tracking data, we address this task with a wide range of models that cover different architectural and data representation strategies, and further introduce a new model ensemble. We find that transformer-based models with scanpath representations coupled with language modeling solve it most successfully, and that accurate predictions can be made in real time, long before the participant finished reading the text. We further introduce a new method for model performance analysis based on mixed effect modeling. Combining this method with rich textual annotations reveals key properties of textual items and participants that contribute to the difficulty of the task, and improves our understanding of the variability in eye movement patterns across the two reading regimes.
Abstract（参考訳）: 読者は、読んでいるテキストに関して異なる目標を持つことができる。これらのゴールは、テキスト上の彼らの目の動きからデコードできますか? 本研究では,情報探索と一般読解という2種類の共通読解目標を区別できるかどうかを初めて検討する。大規模視線追跡データを用いて、異なるアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この課題に対処し、さらに新しいモデルアンサンブルを導入する。言語モデリングと組み合わされたスカンパス表現を用いたトランスフォーマーモデルが最もうまく解き、参加者がテキストを読み終えるずっと前に正確な予測をリアルタイムで行うことができることがわかった。さらに,混合効果モデルに基づくモデル性能解析の新しい手法を提案する。本手法とリッチテキストアノテーションを組み合わせることで,課題の難易度に寄与するテキスト項目と参加者のキーとなる特性が明らかとなり,2つの読解体制における眼球運動パターンの多様性の理解が向上する。

関連論文リスト

Déjà Vu? Decoding Repeated Reading from Eye Movements [1.1652979442763178]
視線移動パターンに基づいて、読者が以前テキストに遭遇したかどうかを自動的に判断できるかどうかを問う。我々はこのタスクの2つの変種を導入し、特徴ベースモデルとニューラルモデルの両方を用いて大きな成功を収めた。本稿では,モデルが使用する情報に対する洞察を得られるモデル性能の分析を行い,その一方で,予測モデリングを解析ツールとして活用し,繰り返し読み出しにおけるメモリの役割をよりよく評価する。
論文参考訳（メタデータ） (2025-02-16T09:59:29Z)
Fine-Grained Prediction of Reading Comprehension from Eye Movements [1.2062053320259833]
本研究は, 視線運動からの読解理解を, 通路上の1つの質問のレベルで予測する作業に焦点をあてる。 3つの新しいマルチモーダル言語モデルと,文献から得られた先行モデルのバッテリを用いて,この課題に取り組む。評価の結果,目の動きは,視力の把握に有用な信号を含んでいることが示唆された。
論文参考訳（メタデータ） (2024-10-06T13:55:06Z)
Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文参考訳（メタデータ） (2024-04-16T16:36:50Z)
Visually Grounded Language Learning: a review of language games, datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文参考訳（メタデータ） (2023-12-05T02:17:29Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts [0.5520145204626482]
読書における眼球運動は精神言語研究において重要な役割を担っている。眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。 ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
論文参考訳（メタデータ） (2023-10-24T07:52:19Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
An Analysis of Reader Engagement in Literary Fiction through Eye Tracking and Linguistic Features [11.805980147608178]
本研究は,読み手がいかに興味を抱くかを予測する上で,テキストの様々な性質の重要性について分析した。フィクションで読者を魅了するものの理解を深めることによって、創造的な物語生成に使用されるモデルにより良い情報を与えることができる。
論文参考訳（メタデータ） (2023-06-06T22:14:59Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文参考訳（メタデータ） (2023-04-10T17:59:04Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文参考訳（メタデータ） (2022-11-20T12:24:57Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
CLRGaze: Contrastive Learning of Representations for Eye Movement Signals [0.0]
眼球運動の特徴ベクトルを自己指導的に学習する。我々は、対照的な学習アプローチを採用し、深層ニューラルネットワークが顕著な視線パターンと粒度のパターンを識別することを奨励する一連のデータ変換を提案する。
論文参考訳（メタデータ） (2020-10-25T06:12:06Z)
COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文参考訳（メタデータ） (2020-07-14T19:04:08Z)
A Novel Attention-based Aggregation Function to Combine Vision and Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文参考訳（メタデータ） (2020-04-27T18:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。