論文の概要: MAGE: A Multi-task Architecture for Gaze Estimation with an Efficient Calibration Module
- arxiv url: http://arxiv.org/abs/2505.16384v1
- Date: Thu, 22 May 2025 08:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.15319
- Title: MAGE: A Multi-task Architecture for Gaze Estimation with an Efficient Calibration Module
- Title(参考訳): MAGE: 効率的な校正モジュールによる迷路推定のためのマルチタスクアーキテクチャ
- Authors: Haoming Huang, Musen Zhang, Jianxin Yang, Zhen Li, Jinkai Li, Yao Guo,
- Abstract要約: MAGEは効率の良いキャリブレーションモジュールを備えたマルチタスク・アーキテクチャーである。
我々の基本モデルは、顔画像の方向特徴と位置特徴の両方を符号化する。
提案手法は,公開MPIIFaceGaze,EYEDIAP,および構築したIMRGazeデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.559268969773661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye gaze can provide rich information on human psychological activities, and has garnered significant attention in the field of Human-Robot Interaction (HRI). However, existing gaze estimation methods merely predict either the gaze direction or the Point-of-Gaze (PoG) on the screen, failing to provide sufficient information for a comprehensive six Degree-of-Freedom (DoF) gaze analysis in 3D space. Moreover, the variations of eye shape and structure among individuals also impede the generalization capability of these methods. In this study, we propose MAGE, a Multi-task Architecture for Gaze Estimation with an efficient calibration module, to predict the 6-DoF gaze information that is applicable for the real-word HRI. Our basic model encodes both the directional and positional features from facial images, and predicts gaze results with dedicated information flow and multiple decoders. To reduce the impact of individual variations, we propose a novel calibration module, namely Easy-Calibration, to fine-tune the basic model with subject-specific data, which is efficient to implement without the need of a screen. Experimental results demonstrate that our method achieves state-of-the-art performance on the public MPIIFaceGaze, EYEDIAP, and our built IMRGaze datasets.
- Abstract(参考訳): 視線は人間の心理的活動に関する豊富な情報を提供し、人間-ロボットインタラクション(HRI)の分野で大きな注目を集めている。
しかし、既存の視線推定手法は、視線方向または視線方向(PoG)を画面上に予測するだけで、3次元空間における6自由度(DoF)視線解析に十分な情報を提供できない。
さらに、個人間の眼球形状や構造の変化は、これらの手法の一般化能力を妨げている。
本研究では,実単語HRIに適用可能な6-DoFの視線情報を予測するために,効率的なキャリブレーションモジュールを備えたマルチタスクによる迷路推定アーキテクチャであるMAGEを提案する。
基本モデルは顔画像の方向特徴と位置特徴の両方を符号化し、専用の情報フローと複数のデコーダで視線結果を予測する。
個人差分の影響を低減するため,スクリーンを必要とせずに実装できる基本モデルを微調整する,新しいキャリブレーションモジュール(Easy-Calibration)を提案する。
実験結果から,MPIIFaceGaze,EYEDIAP,および構築したIMRGazeデータセットの最先端性能が得られた。
関連論文リスト
- DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation [0.0]
本稿では,DHECA-SuperGazeについて紹介する。DHECA-SuperGazeは,視線予測を超解像(SR)とデュアルヘッドアイ・クロスアテンション(DHECA)モジュールを用いて進める深層学習に基づく手法である。
Gaze360およびGFIEデータセットの性能評価は,提案手法のデータセット内性能に優れていた。
論文 参考訳(メタデータ) (2025-05-13T10:45:08Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild [4.089889918897877]
我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。
我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。
提案手法は,視線推定における将来の研究開発の基盤となる。
論文 参考訳(メタデータ) (2024-02-13T09:20:26Z) - Investigation of Architectures and Receptive Fields for Appearance-based
Gaze Estimation [29.154335016375367]
本稿では、ResNetアーキテクチャのいくつかの単純なパラメータをチューニングすることで、既存のガンマ推定タスクの最先端手法よりも優れていることを示す。
ETH-XGazeが3.64、MPIIFaceGazeが4.50、Gaze360が9.13の3つのデータセットで最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-18T14:41:51Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - MTGLS: Multi-Task Gaze Estimation with Limited Supervision [27.57636769596276]
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワーク。
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワークを提案する。
提案手法はCAVE(6.43%)およびGaze360(6.59%)の教師なし最先端手法よりも優れている。
論文 参考訳(メタデータ) (2021-10-23T00:20:23Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。