論文の概要: DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation
- arxiv url: http://arxiv.org/abs/2505.08426v1
- Date: Tue, 13 May 2025 10:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.523283
- Title: DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation
- Title(参考訳): DHECA-SuperGaze:非拘束迷路推定のための二重ヘッドアイクロスアテンションと超解法
- Authors: Franko Šikić, Donik Vršnak, Sven Lončarić,
- Abstract要約: 本稿では,DHECA-SuperGazeについて紹介する。DHECA-SuperGazeは,視線予測を超解像(SR)とデュアルヘッドアイ・クロスアテンション(DHECA)モジュールを用いて進める深層学習に基づく手法である。
Gaze360およびGFIEデータセットの性能評価は,提案手法のデータセット内性能に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unconstrained gaze estimation is the process of determining where a subject is directing their visual attention in uncontrolled environments. Gaze estimation systems are important for a myriad of tasks such as driver distraction monitoring, exam proctoring, accessibility features in modern software, etc. However, these systems face challenges in real-world scenarios, partially due to the low resolution of in-the-wild images and partially due to insufficient modeling of head-eye interactions in current state-of-the-art (SOTA) methods. This paper introduces DHECA-SuperGaze, a deep learning-based method that advances gaze prediction through super-resolution (SR) and a dual head-eye cross-attention (DHECA) module. Our dual-branch convolutional backbone processes eye and multiscale SR head images, while the proposed DHECA module enables bidirectional feature refinement between the extracted visual features through cross-attention mechanisms. Furthermore, we identified critical annotation errors in one of the most diverse and widely used gaze estimation datasets, Gaze360, and rectified the mislabeled data. Performance evaluation on Gaze360 and GFIE datasets demonstrates superior within-dataset performance of the proposed method, reducing angular error (AE) by 0.48{\deg} (Gaze360) and 2.95{\deg} (GFIE) in static configurations, and 0.59{\deg} (Gaze360) and 3.00{\deg} (GFIE) in temporal settings compared to prior SOTA methods. Cross-dataset testing shows improvements in AE of more than 1.53{\deg} (Gaze360) and 3.99{\deg} (GFIE) in both static and temporal settings, validating the robust generalization properties of our approach.
- Abstract(参考訳): 無拘束視線推定は、被写体が制御されていない環境で視覚的注意を向けている場所を決定する過程である。
視線推定システムは、運転注意散らし監視、試験プロクタリング、現代のソフトウェアにおけるアクセシビリティ機能など、無数のタスクにおいて重要である。
しかし、これらのシステムは現実のシナリオにおいて課題に直面しており、部分的には、内蔵画像の解像度が低く、また部分的には現在のSOTA(State-of-the-art)手法におけるヘッドアイ相互作用のモデリングが不十分なためである。
本稿では,DHECA-SuperGazeについて紹介する。DHECA-SuperGazeは,視線予測を超解像(SR)とデュアルヘッドアイ・クロスアテンション(DHECA)モジュールを用いて進める深層学習に基づく手法である。
両枝畳み込みバックボーンは眼とマルチスケールのSRヘッドイメージを処理し,提案したDHECAモジュールは,クロスアテンション機構により抽出した視覚特徴間の双方向的特徴改善を可能にする。
さらに,最も多種多様かつ広く使用されている視線推定データセットであるGaze360の臨界アノテーション誤差を特定し,誤ラベルデータを修正した。
Gaze360 と GFIE データセットの性能評価は,提案手法のデータベース内性能に優れており,静的な構成では 0.48{\deg} (Gaze360) と 2.95{\deg} (GFIE) が,SOTA の手法に比べて時間的設定では 0.59{\deg} (Gaze360) と 3.00{\deg} (GFIE) が低下している。
クロスデータセットテストは、静的および時間的設定の両方において、1.53{\deg} (Gaze360) および3.99{\deg} (GFIE) 以上のAEの改善を示し、我々のアプローチの堅牢な一般化特性を検証する。
関連論文リスト
- Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels [10.827081942898506]
我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。
画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
論文 参考訳(メタデータ) (2025-02-27T16:35:25Z) - Spectrum-oriented Point-supervised Saliency Detector for Hyperspectral Images [13.79887292039637]
ハイパースペクトル・サリエント物体検出(HSOD)における点監督について紹介する。
本稿では,従来のHSOD法から派生したスペクトル・サリエンシを,そのフレームワーク内で重要なスペクトル表現として組み込む。
本稿では,HSIに特化して設計された新しいパイプラインを提案し,点監督戦略に関連した性能低下を効果的に軽減する。
論文 参考訳(メタデータ) (2024-12-24T02:52:43Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Investigation of Architectures and Receptive Fields for Appearance-based
Gaze Estimation [29.154335016375367]
本稿では、ResNetアーキテクチャのいくつかの単純なパラメータをチューニングすることで、既存のガンマ推定タスクの最先端手法よりも優れていることを示す。
ETH-XGazeが3.64、MPIIFaceGazeが4.50、Gaze360が9.13の3つのデータセットで最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-18T14:41:51Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - MTGLS: Multi-Task Gaze Estimation with Limited Supervision [27.57636769596276]
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワーク。
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワークを提案する。
提案手法はCAVE(6.43%)およびGaze360(6.59%)の教師なし最先端手法よりも優れている。
論文 参考訳(メタデータ) (2021-10-23T00:20:23Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。