論文の概要: DMAGaze: Gaze Estimation Based on Feature Disentanglement and Multi-Scale Attention
- arxiv url: http://arxiv.org/abs/2504.11160v1
- Date: Tue, 15 Apr 2025 13:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:39.371837
- Title: DMAGaze: Gaze Estimation Based on Feature Disentanglement and Multi-Scale Attention
- Title(参考訳): DMAGaze: 特徴距離とマルチスケール注意に基づく注視推定
- Authors: Haohan Chen, Hongjia Liu, Shiyong Lan, Wenwu Wang, Yixin Qiao, Yao Li, Guonan Deng,
- Abstract要約: DMAGazeは、視線関連グローバル特徴、局所的な視線特徴、頭部ポーズ推定特徴の3つの側面で、顔画像からの情報を活用する新しい視線推定フレームワークである。
我々の提案したDMAGazeは、2つの主要な公開データセットで広く検証され、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.138316514656958
- License:
- Abstract: Gaze estimation, which predicts gaze direction, commonly faces the challenge of interference from complex gaze-irrelevant information in face images. In this work, we propose DMAGaze, a novel gaze estimation framework that exploits information from facial images in three aspects: gaze-relevant global features (disentangled from facial image), local eye features (extracted from cropped eye patch), and head pose estimation features, to improve overall performance. Firstly, we design a new continuous mask-based Disentangler to accurately disentangle gaze-relevant and gaze-irrelevant information in facial images by achieving the dual-branch disentanglement goal through separately reconstructing the eye and non-eye regions. Furthermore, we introduce a new cascaded attention module named Multi-Scale Global Local Attention Module (MS-GLAM). Through a customized cascaded attention structure, it effectively focuses on global and local information at multiple scales, further enhancing the information from the Disentangler. Finally, the global gaze-relevant features disentangled by the upper face branch, combined with head pose and local eye features, are passed through the detection head for high-precision gaze estimation. Our proposed DMAGaze has been extensively validated on two mainstream public datasets, achieving state-of-the-art performance.
- Abstract(参考訳): 視線方向を推定する迷路推定は、顔画像の複雑な視線関連情報からの干渉に直面することが多い。
本研究では,視線関連グローバル特徴(顔画像から切り離された),局所眼特徴(収穫眼パッチから抽出された),頭部ポーズ推定特徴の3つの側面から,顔画像からの情報を活用する新しい視線推定フレームワークDMAGazeを提案する。
まず,両眼と非眼領域を別々に再構成することで,両眼の視線関連情報と視線関連情報とを顔画像で正確に切り離すための連続マスクベースのディスタングルを設計する。
さらに,Multi-Scale Global Local Attention Module (MS-GLAM) と呼ばれる新しいカスケードアテンションモジュールを導入する。
カスタマイズされたカスケードアテンション構造を通じて、グローバルおよびローカル情報を複数のスケールで効果的に重視し、ディケンタングラーの情報をさらに強化する。
最後に、上面枝に絡み合うグローバルな視線関連特徴と頭部ポーズと局所的な視線特徴とが、検出ヘッドを通過して高精度な視線推定を行う。
我々の提案したDMAGazeは、2つの主要な公開データセットで広く検証され、最先端のパフォーマンスを実現している。
関連論文リスト
- Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck [36.255590251433844]
本研究は,教師なし・自己監督型視線事前学習フレームワークを提案する。
これは全顔の枝に、視線アノテーションを使わずに低次元の視線埋め込みを学習させ、協調的な特徴コントラストと圧縮モジュールを通して学習させる。
このフレームワークのコアには、視線関連情報をフルフェイスブランチからアイメイドのオートエンコーダに絞り込む、交互に目が当たらないマスキングトレーニングスキームがある。
論文 参考訳(メタデータ) (2024-06-29T04:35:08Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - LNSMM: Eye Gaze Estimation With Local Network Share Multiview Multitask [7.065909514483728]
本稿では,視線点と視線方向を同時に推定する新しい手法を提案する。
本手法は,視線点と視線方向の2つの指標について,現在主流の手法であることを示す。
論文 参考訳(メタデータ) (2021-01-18T15:14:24Z) - Integrating Human Gaze into Attention for Egocentric Activity
Recognition [40.517438760096056]
本研究では,人間の視線を時間的注意に組み込むことにより,自我中心の行動認識を実現するための効果的な確率的アプローチを提案する。
位置は固定点を不確かさをモデル化するために構造化された離散潜在変数として表現する。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
論文 参考訳(メタデータ) (2020-11-08T08:02:30Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。