論文の概要: WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset
- arxiv url: http://arxiv.org/abs/2303.17876v3
- Date: Fri, 15 Mar 2024 12:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:51:44.763033
- Title: WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset
- Title(参考訳): WebQAmGaze: マルチリンガルなWebカメラアイトラッキング-While-Readingデータセット
- Authors: Tiago Ribeiro, Stephanie Brandl, Anders Søgaard, Nora Hollenstein,
- Abstract要約: WebQAmGazeは、多言語で低コストなアイトラッキング対応データセットである。
WebQAmGazeには、英語、ドイツ語、スペイン語、トルコ語のテキストを自然に読む幅広い年齢層の600人の参加者によるWebカメラによるアイトラッキングデータが含まれている。
- 参考スコア(独自算出の注目度): 42.431350136679704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present WebQAmGaze, a multilingual low-cost eye-tracking-while-reading dataset, designed as the first webcam-based eye-tracking corpus of reading to support the development of explainable computational language processing models. WebQAmGaze includes webcam eye-tracking data from 600 participants of a wide age range naturally reading English, German, Spanish, and Turkish texts. Each participant performs two reading tasks composed of five texts each, a normal reading and an information-seeking task, followed by a comprehension question. We compare the collected webcam data to high-quality eye-tracking recordings. The results show a moderate to strong correlation between the eye movement measures obtained with the webcam compared to those obtained with a commercial eye-tracking device. When validating the data, we find that higher fixation duration on relevant text spans accurately indicates correctness when answering the corresponding questions. This dataset advances webcam-based reading studies and opens avenues to low-cost and diverse data collection. WebQAmGaze is beneficial to learn about the cognitive processes behind question-answering and to apply these insights to computational models of language understanding.
- Abstract(参考訳): WebQAmGazeはマルチリンガルで低コストな視線追跡時読取データセットであり,Webカメラによる視線追跡コーパスとして初めて設計され,説明可能な計算言語処理モデルの開発を支援する。
WebQAmGazeには、英語、ドイツ語、スペイン語、トルコ語のテキストを自然に読む幅広い年齢層の600人の参加者によるWebカメラによるアイトラッキングデータが含まれている。
参加者はそれぞれ5つのテキストからなる2つの読解タスク、通常の読解タスクと情報検索タスクを実行し、続いて理解可能な質問を行う。
収集したウェブカメラデータを高品質なアイトラッキング記録と比較した。
その結果,Webカメラで得られた眼球運動測定値と市販の眼球追跡装置で得られた眼球運動測定値との間には中程度から強い相関関係が認められた。
データを検証すると、関連するテキストに対する高い固定期間が、対応する質問に答える際の正確さを示すことが分かる。
このデータセットは、Webカメラベースの読書研究を前進させ、低コストで多様なデータ収集への道を開く。
WebQAmGazeは、質問応答の背後にある認知過程について学び、これらの知見を言語理解の計算モデルに適用するのに有益である。
関連論文リスト
- Dual Modalities of Text: Visual and Textual Generative Pre-training [35.82610192457444]
本稿では,RGB画像としてレンダリングされた4億以上の文書のコーパスを事前学習する,画素ベースの自動回帰言語モデルのための新しい事前学習フレームワークを提案する。
本手法は,次のパッチ予測による視覚データと,次のトークン予測によるテキストデータの両方を分類ヘッドで処理する,二重モードトレーニング方式を特徴とする。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale
Annotations [14.915881495753121]
我々は、ウェブカメラによる視線追跡記録の形で、重要度を評価する際に有効な選択肢があるかどうかを議論する。
本研究では,視線データから得られる全視線時間,視線エントロピー,復号精度などの付加情報を評価する。
この結果から,視線データは課題の難易度を推定するために活用できる貴重な言語学的洞察を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-29T13:09:26Z) - Getting the Most from Eye-Tracking: User-Interaction Based Reading
Region Estimation Dataset and Models [2.9531082052924233]
ブラウザ追跡データに基づいて,地域ごとの読み出し時間を予測するモデルを構築した。
ユーザインタラクションに基づいて、メッセージレベルの読み込み時間を予測するために、マシンラーニングとディープラーニングモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-06-12T23:03:58Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Team \'UFAL at CMCL 2022 Shared Task: Figuring out the correct recipe
for predicting Eye-Tracking features using Pretrained Language Models [9.087729124428467]
本稿では,眼球追跡情報予測のためのCMCL 2022共有タスクについて述べる。
提案は平均5.72のMAEを達成し,共有タスクでは5位にランクインした。
論文 参考訳(メタデータ) (2022-04-11T10:43:34Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。