論文の概要: Predicting Eye Gaze Location on Websites
- arxiv url: http://arxiv.org/abs/2211.08074v1
- Date: Tue, 15 Nov 2022 11:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:48:35.893667
- Title: Predicting Eye Gaze Location on Websites
- Title(参考訳): Webサイトにおける視線位置の予測
- Authors: Ciheng Zhang, Decky Aspandi, Steffen Staab
- Abstract要約: 本稿では,画像とテキストの空間的位置を併用した効果的な深層学習モデルを提案する。
我々は,眼球運動予測の精度を向上させるため,統合データセットを用いた注意深い微調整の利点を示す。
- 参考スコア(独自算出の注目度): 4.8633100732964705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World-wide-web, with the website and webpage as the main interface,
facilitates the dissemination of important information. Hence it is crucial to
optimize them for better user interaction, which is primarily done by analyzing
users' behavior, especially users' eye-gaze locations. However, gathering these
data is still considered to be labor and time intensive. In this work, we
enable the development of automatic eye-gaze estimations given a website
screenshots as the input. This is done by the curation of a unified dataset
that consists of website screenshots, eye-gaze heatmap and website's layout
information in the form of image and text masks. Our pre-processed dataset
allows us to propose an effective deep learning-based model that leverages both
image and text spatial location, which is combined through attention mechanism
for effective eye-gaze prediction. In our experiment, we show the benefit of
careful fine-tuning using our unified dataset to improve the accuracy of
eye-gaze predictions. We further observe the capability of our model to focus
on the targeted areas (images and text) to achieve high accuracy. Finally, the
comparison with other alternatives shows the state-of-the-art result of our
model establishing the benchmark for the eye-gaze prediction task.
- Abstract(参考訳): ウェブとウェブページを主インターフェースとする世界規模のウェブは、重要な情報の拡散を促進する。
したがって、より優れたユーザーインタラクションのために最適化することが重要であり、主にユーザーの行動、特にユーザーの視線の位置を分析して行われる。
しかし、これらのデータの収集は依然として労働力と時間を要すると考えられている。
本研究では,Webサイトのスクリーンショットを入力として,視線自動推定の開発を可能にする。
これは、webサイトのスクリーンショット、アイゲイズヒートマップ、および画像とテキストマスクの形でwebサイトのレイアウト情報で構成される統一データセットのキュレーションによって行われる。
画像とテキストの空間的位置を併用し,注意機構を組み合わせることで,アイ・ガゼ予測を効果的に行う,効果的な深層学習モデルを提案する。
実験では,眼球運動予測の精度を向上させるために,統一データセットを用いた注意深い微調整の利点を示す。
さらに,対象領域(画像とテキスト)に焦点を合わせることで,高精度化を実現している。
最後に、他の代替案との比較により、視線予測タスクのベンチマークを確立するモデルの現状を示す。
関連論文リスト
- SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - RAZE: Region Guided Self-Supervised Gaze Representation Learning [5.919214040221055]
RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-04T06:23:49Z) - Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning [8.422257363944295]
本稿では、視線推定のための頑健な視線表現を学習する新しいマルチストリームネットワークを提案する。
まず,目に見える眼球と虹彩をシミュレーターを用いて詳述した眼球領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の画像の視線領域マスクを生成する。
論文 参考訳(メタデータ) (2021-12-15T04:44:45Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。