論文の概要: See Where You Read with Eye Gaze Tracking and Large Language Model
- arxiv url: http://arxiv.org/abs/2409.19454v2
- Date: Thu, 17 Oct 2024 05:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:07:28.771551
- Title: See Where You Read with Eye Gaze Tracking and Large Language Model
- Title(参考訳): 視線追跡と大規模言語モデルで読む場所
- Authors: Sikai Yang, Gang Yan,
- Abstract要約: 本稿では,リニアとジャンプの両方をサポートする読み上げトラッキングとハイライトシステムを提案する。
制御された実験では、信頼性の高いリニアリーディングトラッキングが示され、ジャンプリーディングの精度は84%である。
18名のボランティアによる実地試験は,読解段落の追跡と強調においてシステムの有効性を実証した。
- 参考スコア(独自算出の注目度): 9.690331515158732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Losing track of reading progress during line switching can be frustrating. Eye gaze tracking technology offers a potential solution by highlighting read paragraphs, aiding users in avoiding wrong line switches. However, the gap between gaze tracking accuracy (2-3 cm) and text line spacing (3-5 mm) makes direct application impractical. Existing methods leverage the linear reading pattern but fail during jump reading. This paper presents a reading tracking and highlighting system that supports both linear and jump reading. Based on experimental insights from the gaze nature study of 16 users, two gaze error models are designed to enable both jump reading detection and relocation. The system further leverages the large language model's contextual perception capability in aiding reading tracking. A reading tracking domain-specific line-gaze alignment opportunity is also exploited to enable dynamic and frequent calibration of the gaze results. Controlled experiments demonstrate reliable linear reading tracking, as well as 84% accuracy in tracking jump reading. Furthermore, real field tests with 18 volunteers demonstrated the system's effectiveness in tracking and highlighting read paragraphs, improving reading efficiency, and enhancing user experience.
- Abstract(参考訳): 行切替時の読み出し進行の軌跡を逸脱することはイライラすることがある。
視線追跡技術は、読み書きをハイライトし、ユーザーが間違った行スイッチを避けるのを助けることで、潜在的な解決策を提供する。
しかし、視線追跡精度(2~3cm)とテキスト線間隔(3~5mm)の差は、直接適用を不可能にする。
既存の方法はリニアリーディングパターンを利用するが、ジャンプリーディング中に失敗する。
本稿では,リニアとジャンプの両方をサポートする読み上げトラッキングとハイライトシステムを提案する。
16人のユーザの視線自然調査からの実験的な知見に基づいて、2つの視線誤差モデルが、ジャンプ読みの検出と移動の両方を可能にするように設計されている。
このシステムは、読取追跡を支援するために、大規模言語モデルの文脈認識能力をさらに活用する。
また、目視結果の動的かつ頻繁な校正を可能にするために、ドメイン固有の線画アライメント機会も活用する。
制御された実験では、信頼性の高いリニアリーディングトラッキングが示され、ジャンプリーディングの精度は84%である。
さらに,18名のボランティアによる実地試験により,読解段落の追跡・強調,読解効率の向上,ユーザエクスペリエンスの向上が実証された。
関連論文リスト
- Monocular Lane Detection Based on Deep Learning: A Survey [51.19079381823076]
車線検出は自律運転認識システムにおいて重要な役割を果たす。
ディープラーニングアルゴリズムが普及するにつれて、ディープラーニングに基づく単眼車線検出手法が優れた性能を示した。
本稿では, 成熟度の高い2次元車線検出手法と開発途上国の3次元車線検出技術の両方を網羅して, 既存手法の概要を概説する。
論文 参考訳(メタデータ) (2024-11-25T12:09:43Z) - Under pressure: learning-based analog gauge reading in the wild [22.612483878888884]
本稿では,実世界のロボットシステムに展開可能なアナログゲージを読むための解釈可能なフレームワークを提案する。
私たちのフレームワークは、読み取りタスクを各ステップで潜在的な障害を検出するなど、別々のステップに分割します。
我々のシステムは、ゲージの種類やスケールの範囲について事前の知識を必要とせず、使用する単位を抽出することができる。
論文 参考訳(メタデータ) (2024-04-12T19:13:42Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Generating Summaries with Controllable Readability Levels [67.34087272813821]
テキストの複雑さ、主題、読者の背景知識など、可読性レベルに影響を与える要因がいくつかある。
現在のテキスト生成アプローチでは制御が洗練されておらず、結果として読者の習熟度にカスタマイズされないテキストが作られる。
可読性を制御するための3つのテキスト生成手法を開発した。命令ベースの可読性制御,要求される可読性と観測される可読性の間のギャップを最小限に抑える強化学習,および,ルックアヘッドを用いて今後の復号化ステップの可読性を評価する復号手法である。
論文 参考訳(メタデータ) (2023-10-16T17:46:26Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - GazeReader: Detecting Unknown Word Using Webcam for English as a Second
Language (ESL) Learners [24.009130595261123]
本稿では,Webカメラのみを用いた未知語検出手法であるGazeReaderを提案する。
GazeReaderは学習者の視線を追跡し、トランスフォーマーベースの機械学習モデルを適用し、テキスト情報をエンコードして未知の単語を見つける。
論文 参考訳(メタデータ) (2023-03-18T15:55:49Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。