論文の概要: Eyettention II: A Dual-Sequence Architecture for Modeling Fixation Location, Within-Word Landing Position, and Fixation Duration in Reading
- arxiv url: http://arxiv.org/abs/2606.01964v1
- Date: Mon, 01 Jun 2026 09:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.693691
- Title: Eyettention II: A Dual-Sequence Architecture for Modeling Fixation Location, Within-Word Landing Position, and Fixation Duration in Reading
- Title(参考訳): Eyettention II: 単語内着地位置, 読解時の固定期間をモデル化するための二重系列アーキテクチャ
- Authors: Shuwen Deng, Cui Ding, David R. Reich, Paul Prasse, Lena A. Jäger,
- Abstract要約: Eyettention IIは、現実的なスキャンパスを生成することができるエンドツーエンドのディープラーニングモデルである。
我々は、スキャンパス予測において、Eyettention IIが最先端モデルを上回ることを実証した。
- 参考スコア(独自算出の注目度): 8.41274779324281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The way our eyes move while reading provides valuable insights into both the reader's cognitive processes and the properties of the text. In particular, eye-tracking-while-reading data has shown to be highly beneficial in various technological applications, such as enhancing and interpreting language models and inferring a reader's characteristics. However, these applications often rely on large-scale, data-driven models, which demand extensive eye-tracking datasets that are challenging to obtain due to the resource-intensive nature of data collection. To address the challenge of data scarcity, we develop Eyettention II, an end-to-end trained deep-learning model capable of generating realistic scanpaths consisting of a complete set of fixation attributes in chronological order, including fixation location, within-word landing position, and fixation duration. Our model is lightweight, efficiently trainable on limited GPU resources, and closely aligned with cognitive theories. We demonstrate that Eyettention II surpasses state-of-the-art models in scanpath prediction and mirrors human-like gaze behavior by capturing key psycholinguistic phenomena. With its robust performance, Eyettention II holds the potential to drive advancements in natural language processing, facilitate piloting the materials of psycholinguistic experiments, and uncover new insights beyond what is explicitly encoded in theoretical cognitive models.
- Abstract(参考訳): 読みながらの目の動きは、読者の認知過程とテキストの性質の両方について貴重な洞察を与えてくれる。
特に、視線追跡時読影データは、言語モデルの拡張や解釈、読み手の特徴の推測など、様々な技術応用において非常に有益であることが示されている。
しかし、これらのアプリケーションは大規模なデータ駆動モデルに依存しており、リソース集約的なデータ収集の性質のため入手が困難である広範囲な視線追跡データセットを必要とする。
データ不足の課題に対処するために、固定位置、単語内着地位置、固定時間を含む時系列順に固定属性の完全なセットからなる現実的なスキャンパスを生成することができるエンドツーエンド訓練深層学習モデルであるEyettention IIを開発した。
我々のモデルは軽量で、限られたGPUリソースで効率的にトレーニングでき、認知理論と密接に一致しています。
我々は、視線IIがスキャンパス予測の最先端モデルを超え、重要な心理言語学的現象を捉えて人間のような視線行動を反映していることを示した。
その堅牢な性能により、Ienttention IIは自然言語処理の進歩を推進し、精神言語実験の材料を操縦し、理論認知モデルで明示的に符号化されているもの以外の新たな洞察を明らかにする可能性を秘めている。
関連論文リスト
- OW-CLIP: Data-Efficient Visual Supervision for Open-World Object Detection via Human-AI Collaboration [16.26971698376933]
OW-CLIPは、キュレートされたデータを提供し、データ効率のよいOWODモデルインクリメンタルトレーニングを可能にするビジュアル分析システムである。
OW-CLIPは、最先端のパフォーマンスの89%で競争性能を達成し、3.8%の自己生成データしか必要としない。
論文 参考訳(メタデータ) (2025-07-26T08:58:56Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts [0.5520145204626482]
読書における眼球運動は精神言語研究において重要な役割を担っている。
眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。
ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
論文 参考訳(メタデータ) (2023-10-24T07:52:19Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Algebraic Learning: Towards Interpretable Information Modeling [0.0]
この論文は、一般的な情報モデリングにおける解釈可能性の問題に対処し、問題を2つの範囲から緩和する試みである。
まず、問題指向の視点を用いて、興味深い数学的性質が自然に現れるモデリング実践に知識を取り入れる。
第二に、訓練されたモデルを考えると、基礎となるシステムに関するさらなる洞察を抽出するために様々な方法を適用することができる。
論文 参考訳(メタデータ) (2022-03-13T15:53:39Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。