論文の概要: Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation
- arxiv url: http://arxiv.org/abs/2404.05215v1
- Date: Mon, 8 Apr 2024 06:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:23:43.580525
- Title: Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation
- Title(参考訳): パーソナライズされたビデオゲズ推定のための時空間注意とガウス過程
- Authors: Swati Jindal, Mohit Yadav, Roberto Manduchi,
- Abstract要約: 本稿では,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。
本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。
実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。
- 参考スコア(独自算出の注目度): 7.545077734926115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaze is an essential prompt for analyzing human behavior and attention. Recently, there has been an increasing interest in determining gaze direction from facial videos. However, video gaze estimation faces significant challenges, such as understanding the dynamic evolution of gaze in video sequences, dealing with static backgrounds, and adapting to variations in illumination. To address these challenges, we propose a simple and novel deep learning model designed to estimate gaze from videos, incorporating a specialized attention module. Our method employs a spatial attention mechanism that tracks spatial dynamics within videos. This technique enables accurate gaze direction prediction through a temporal sequence model, adeptly transforming spatial observations into temporal insights, thereby significantly improving gaze estimation accuracy. Additionally, our approach integrates Gaussian processes to include individual-specific traits, facilitating the personalization of our model with just a few labeled samples. Experimental results confirm the efficacy of the proposed approach, demonstrating its success in both within-dataset and cross-dataset settings. Specifically, our proposed approach achieves state-of-the-art performance on the Gaze360 dataset, improving by $2.5^\circ$ without personalization. Further, by personalizing the model with just three samples, we achieved an additional improvement of $0.8^\circ$. The code and pre-trained models are available at \url{https://github.com/jswati31/stage}.
- Abstract(参考訳): 迷路は人間の行動や注意を解析するための重要なプロンプトである。
近年,顔画像から視線方向を決定することへの関心が高まっている。
しかしながら、ビデオ視線推定は、ビデオシーケンスにおける視線の動的進化の理解、静的背景の扱い、照明のバリエーションへの適応など、重大な課題に直面している。
これらの課題に対処するために,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。
本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。
この技術は、時間的シーケンスモデルによる正確な視線方向予測を可能にし、空間観測を時間的洞察に変換することにより、視線推定精度を大幅に向上させる。
さらに,本手法はガウス過程を統合し,個々の特徴を包含し,少数のラベル付きサンプルを用いてモデルのパーソナライズを容易にする。
実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。
具体的には,提案手法はGaze360データセット上での最先端性能を実現し,パーソナライズなしで2.5^\circ$に改善する。
さらに、3つのサンプルでモデルをパーソナライズすることで、$0.8^\circ$のさらなる改善を実現した。
コードと事前トレーニングされたモデルは、 \url{https://github.com/jswati31/stage}で利用できる。
関連論文リスト
- TPP-Gaze: Modelling Gaze Dynamics in Space and Time with Neural Temporal Point Processes [63.95928298690001]
ニューラル・テンポラル・ポイント・プロセス(TPP)に基づく新規かつ原則化されたスキャンパスダイナミクスのアプローチであるTPP-Gazeを提案する。
提案手法は,最先端手法と比較して総合的に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-30T19:22:38Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following [74.30960564603917]
訓練用視線モデルには、人間のアノテータによって注釈付けされた視線目標座標を持つ多数の画像が必要である。
タスクに2つの新しい前処理を導入することで、視線追跡のための最初の半教師付き手法を提案する。
提案手法は,GazeFollow画像データセットに基づく単純な擬似アノテーション生成ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-06-04T20:43:26Z) - GazeFusion: Saliency-guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成機能を提供する。
本稿では,人間の視覚的注意の先行するデータを生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - Improving saliency models' predictions of the next fixation with humans'
intrinsic cost of gaze shifts [6.315366433343492]
我々は,次の視線目標を予測し,視線に対する人的コストを実証的に測定するための原則的枠組みを開発する。
我々は、人間の視線嗜好の実装を提供する。これは、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。
論文 参考訳(メタデータ) (2022-07-09T11:21:13Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。