論文の概要: Towards End-to-end Video-based Eye-Tracking
- arxiv url: http://arxiv.org/abs/2007.13120v1
- Date: Sun, 26 Jul 2020 12:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:02:56.007370
- Title: Towards End-to-end Video-based Eye-Tracking
- Title(参考訳): エンド・ツー・エンドの視線追跡に向けて
- Authors: Seonwook Park and Emre Aksan and Xucong Zhang and Otmar Hilliges
- Abstract要約: 画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
- 参考スコア(独自算出の注目度): 50.0630362419371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating eye-gaze from images alone is a challenging task, in large parts
due to un-observable person-specific factors. Achieving high accuracy typically
requires labeled data from test users which may not be attainable in real
applications. We observe that there exists a strong relationship between what
users are looking at and the appearance of the user's eyes. In response to this
understanding, we propose a novel dataset and accompanying method which aims to
explicitly learn these semantic and temporal relationships. Our video dataset
consists of time-synchronized screen recordings, user-facing camera views, and
eye gaze data, which allows for new benchmarks in temporal gaze tracking as
well as label-free refinement of gaze. Importantly, we demonstrate that the
fusion of information from visual stimuli as well as eye images can lead
towards achieving performance similar to literature-reported figures acquired
through supervised personalization. Our final method yields significant
performance improvements on our proposed EVE dataset, with up to a 28 percent
improvement in Point-of-Gaze estimates (resulting in 2.49 degrees in angular
error), paving the path towards high-accuracy screen-based eye tracking purely
from webcam sensors. The dataset and reference source code are available at
https://ait.ethz.ch/projects/2020/EVE
- Abstract(参考訳): 画像だけでの視線差の推定は、観察不能な人固有の要因による大きな部分において、難しい課題である。
高い精度を達成するには、一般的に実際のアプリケーションでは達成できないテストユーザからのラベル付きデータが必要である。
ユーザが見ているものとユーザの目に見えるものとの間には,強い関係があることを観察する。
この理解に応えて,これらの意味的・時間的関係を明確に学習することを目的とした,新しいデータセットと付随する手法を提案する。
私たちのビデオデータセットは、タイム同期されたスクリーン記録、ユーザ向けカメラビュー、視線データで構成されており、時間的視線追跡の新しいベンチマークと、ラベルなしの視線改善を可能にしています。
重要なのは,視覚刺激と眼画像の融合が,教師付きパーソナライゼーションによって獲得した文献に類似したパフォーマンスの実現に繋がることを示すことである。
最終的な方法では、提案したEVEデータセットに対して、最大で28%の改善(角誤差2.49度)を達成し、Webカメラセンサーから高精度のスクリーンベースのアイトラッキングへの道を開いた。
データセットと参照ソースコードはhttps://ait.ethz.ch/projects/2020/eveで入手できる。
関連論文リスト
- Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Predicting Eye Gaze Location on Websites [4.8633100732964705]
本稿では,画像とテキストの空間的位置を併用した効果的な深層学習モデルを提案する。
我々は,眼球運動予測の精度を向上させるため,統合データセットを用いた注意深い微調整の利点を示す。
論文 参考訳(メタデータ) (2022-11-15T11:55:46Z) - Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning [8.422257363944295]
本稿では、視線推定のための頑健な視線表現を学習する新しいマルチストリームネットワークを提案する。
まず,目に見える眼球と虹彩をシミュレーターを用いて詳述した眼球領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の画像の視線領域マスクを生成する。
論文 参考訳(メタデータ) (2021-12-15T04:44:45Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - In the Eye of the Beholder: Gaze and Actions in First Person Video [30.54510882243602]
本研究では,ヘッドウーンカメラで撮影した映像の分析に基づいて,人が何をしているか,どこに見ているのかを共同で決定する課題に対処する。
私たちのデータセットには、ビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれています。
第一人物視における共同視線推定と行動認識のための新しい深層モデルを提案する。
論文 参考訳(メタデータ) (2020-05-31T22:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。