論文の概要: Investigation of Architectures and Receptive Fields for Appearance-based
Gaze Estimation
- arxiv url: http://arxiv.org/abs/2308.09593v1
- Date: Fri, 18 Aug 2023 14:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:47:35.825428
- Title: Investigation of Architectures and Receptive Fields for Appearance-based
Gaze Estimation
- Title(参考訳): 外観に基づく視線推定のためのアーキテクチャと受容場の検討
- Authors: Yunhan Wang, Xiangwei Shi, Shalini De Mello, Hyung Jin Chang, Xucong
Zhang
- Abstract要約: 本稿では、ResNetアーキテクチャのいくつかの単純なパラメータをチューニングすることで、既存のガンマ推定タスクの最先端手法よりも優れていることを示す。
ETH-XGazeが3.64、MPIIFaceGazeが4.50、Gaze360が9.13の3つのデータセットで最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 29.154335016375367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of deep learning technology in the past decade,
appearance-based gaze estimation has attracted great attention from both
computer vision and human-computer interaction research communities.
Fascinating methods were proposed with variant mechanisms including soft
attention, hard attention, two-eye asymmetry, feature disentanglement, rotation
consistency, and contrastive learning. Most of these methods take the
single-face or multi-region as input, yet the basic architecture of gaze
estimation has not been fully explored. In this paper, we reveal the fact that
tuning a few simple parameters of a ResNet architecture can outperform most of
the existing state-of-the-art methods for the gaze estimation task on three
popular datasets. With our extensive experiments, we conclude that the stride
number, input image resolution, and multi-region architecture are critical for
the gaze estimation performance while their effectiveness dependent on the
quality of the input face image. We obtain the state-of-the-art performances on
three datasets with 3.64 on ETH-XGaze, 4.50 on MPIIFaceGaze, and 9.13 on
Gaze360 degrees gaze estimation error by taking ResNet-50 as the backbone.
- Abstract(参考訳): 過去10年間のディープラーニング技術の急速な発展に伴い、外見に基づく視線推定はコンピュータビジョンと人間とコンピュータの相互作用の研究コミュニティから大きな注目を集めている。
ソフトアテンション,ハードアテンション,2眼非対称性,特徴異方性,回転一貫性,コントラスト学習など,様々なメカニズムで興味深い手法が提案されている。
これらの手法の多くは単一面または複数領域を入力とするが、視線推定の基本的なアーキテクチャは十分に解明されていない。
本稿では,ResNetアーキテクチャの単純なパラメータのチューニングが,3つの一般的なデータセット上での視線推定タスクにおいて,既存の最先端手法よりも優れていることを示す。
広範な実験により,視線推定性能はストライド数,入力画像解像度,多領域アーキテクチャが重要であり,その効果は入力顔画像の品質に依存することがわかった。
我々は、ETH-XGazeで3.64、MPIIFaceGazeで4.50、Gaze360で9.13の3つのデータセットに対して、ResNet-50をバックボーンとし、予測誤差を計測した。
関連論文リスト
- CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild [4.089889918897877]
我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。
我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。
提案手法は,視線推定における将来の研究開発の基盤となる。
論文 参考訳(メタデータ) (2024-02-13T09:20:26Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Surface Geometry Processing: An Efficient Normal-based Detail
Representation [66.69000350849328]
2次元正規領域に効率的な表面詳細処理フレームワークを導入する。
提案する正規表現は,細部分離性,細部転送性,細部イデオロジェンスという3つの重要な特性を持つことを示す。
3つの新しいスキームは、幾何学的テクスチャ合成、幾何学的ディテール転送、3次元表面超解像を含む幾何学的表面詳細処理の応用のために設計されている。
論文 参考訳(メタデータ) (2023-07-16T04:46:32Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Gaze Estimation with an Ensemble of Four Architectures [116.53389064096139]
我々は、4つの異なるネットワークアーキテクチャを採用する複数の視線推定器を訓練する。
最適な6つの推定器を選択し、それらの予測を線形結合でアンサンブルする。
ETH-XGazeコンペティションでは、ETH-XGazeテストセットで平均3.11円の角度誤差を達成した。
論文 参考訳(メタデータ) (2021-07-05T12:40:26Z) - Appearance-based Gaze Estimation With Deep Learning: A Review and Benchmark [14.306488668615883]
本稿では,ディープラーニングを用いた外見に基づく視線推定手法の体系的レビューを行う。
顔/目の検出,データ修正,2D/3D視線変換,視線原点変換など,データ前処理と後処理の方法を要約する。
論文 参考訳(メタデータ) (2021-04-26T15:53:03Z) - On estimating gaze by self-attention augmented convolutions [6.015556590955813]
本稿では,学習した特徴の質を向上させるために,自己注意型拡張畳み込みに基づく新しいネットワークアーキテクチャを提案する。
私たちは、Attention-augmented ResNet(ARes-14)を2つの畳み込みバックボーンとして探求するフレームワークをARes-gazeと呼びました。
その結果,MPIIFaceGazeデータセットの最先端手法と比較して平均角誤差が2.38%減少し,EyeDiapデータセットの2位となった。
論文 参考訳(メタデータ) (2020-08-25T14:29:05Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。