論文の概要: Predicting Eye Gaze Location on Websites
- arxiv url: http://arxiv.org/abs/2211.08074v1
- Date: Tue, 15 Nov 2022 11:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:48:35.893667
- Title: Predicting Eye Gaze Location on Websites
- Title(参考訳): Webサイトにおける視線位置の予測
- Authors: Ciheng Zhang, Decky Aspandi, Steffen Staab
- Abstract要約: 本稿では,画像とテキストの空間的位置を併用した効果的な深層学習モデルを提案する。
我々は,眼球運動予測の精度を向上させるため,統合データセットを用いた注意深い微調整の利点を示す。
- 参考スコア(独自算出の注目度): 4.8633100732964705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World-wide-web, with the website and webpage as the main interface,
facilitates the dissemination of important information. Hence it is crucial to
optimize them for better user interaction, which is primarily done by analyzing
users' behavior, especially users' eye-gaze locations. However, gathering these
data is still considered to be labor and time intensive. In this work, we
enable the development of automatic eye-gaze estimations given a website
screenshots as the input. This is done by the curation of a unified dataset
that consists of website screenshots, eye-gaze heatmap and website's layout
information in the form of image and text masks. Our pre-processed dataset
allows us to propose an effective deep learning-based model that leverages both
image and text spatial location, which is combined through attention mechanism
for effective eye-gaze prediction. In our experiment, we show the benefit of
careful fine-tuning using our unified dataset to improve the accuracy of
eye-gaze predictions. We further observe the capability of our model to focus
on the targeted areas (images and text) to achieve high accuracy. Finally, the
comparison with other alternatives shows the state-of-the-art result of our
model establishing the benchmark for the eye-gaze prediction task.
- Abstract(参考訳): ウェブとウェブページを主インターフェースとする世界規模のウェブは、重要な情報の拡散を促進する。
したがって、より優れたユーザーインタラクションのために最適化することが重要であり、主にユーザーの行動、特にユーザーの視線の位置を分析して行われる。
しかし、これらのデータの収集は依然として労働力と時間を要すると考えられている。
本研究では,Webサイトのスクリーンショットを入力として,視線自動推定の開発を可能にする。
これは、webサイトのスクリーンショット、アイゲイズヒートマップ、および画像とテキストマスクの形でwebサイトのレイアウト情報で構成される統一データセットのキュレーションによって行われる。
画像とテキストの空間的位置を併用し,注意機構を組み合わせることで,アイ・ガゼ予測を効果的に行う,効果的な深層学習モデルを提案する。
実験では,眼球運動予測の精度を向上させるために,統一データセットを用いた注意深い微調整の利点を示す。
さらに,対象領域(画像とテキスト)に焦点を合わせることで,高精度化を実現している。
最後に、他の代替案との比較により、視線予測タスクのベンチマークを確立するモデルの現状を示す。
関連論文リスト
- Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - RAZE: Region Guided Self-Supervised Gaze Representation Learning [5.919214040221055]
RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-04T06:23:49Z) - Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning [8.422257363944295]
本稿では、視線推定のための頑健な視線表現を学習する新しいマルチストリームネットワークを提案する。
まず,目に見える眼球と虹彩をシミュレーターを用いて詳述した眼球領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の画像の視線領域マスクを生成する。
論文 参考訳(メタデータ) (2021-12-15T04:44:45Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。