論文の概要: 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales
- arxiv url: http://arxiv.org/abs/2009.06924v3
- Date: Tue, 26 Oct 2021 11:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:14:25.839193
- Title: 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales
- Title(参考訳): 複数のズームスケールを用いた野生の360度視線推定
- Authors: Ashesh, Chu-Song Chen, Hsuan-Tien Lin
- Abstract要約: 焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
- 参考スコア(独自算出の注目度): 26.36068336169795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze estimation involves predicting where the person is looking at within an
image or video. Technically, the gaze information can be inferred from two
different magnification levels: face orientation and eye orientation. The
inference is not always feasible for gaze estimation in the wild, given the
lack of clear eye patches in conditions like extreme left/right gazes or
occlusions. In this work, we design a model that mimics humans' ability to
estimate the gaze by aggregating from focused looks, each at a different
magnification level of the face area. The model avoids the need to extract
clear eye patches and at the same time addresses another important issue of
face-scale variation for gaze estimation in the wild. We further extend the
model to handle the challenging task of 360-degree gaze estimation by encoding
the backward gazes in the polar representation along with a robust averaging
scheme. Experiment results on the ETH-XGaze dataset, which does not contain
scale-varying faces, demonstrate the model's effectiveness to assimilate
information from multiple scales. For other benchmark datasets with many
scale-varying faces (Gaze360 and RT-GENE), the proposed model achieves
state-of-the-art performance for gaze estimation when using either images or
videos. Our code and pretrained models can be accessed at
https://github.com/ashesh-0/MultiZoomGaze.
- Abstract(参考訳): 視線推定では、人物が画像やビデオの中でどこに見ているかを予測する。
技術的には、視線情報は顔配向と視線配向の2つの異なる倍率レベルから推定できる。
極端に左・右の視線や咬合などの条件において明確なアイパッチがないため、野生の視線推定には必ずしも不可能である。
本研究では、顔領域の異なる拡大レベルにおいて、焦点を合わせ、視線を推定する人間の能力を模倣するモデルを設計する。
このモデルでは、鮮明な眼のパッチを抽出する必要がなくなり、同時に、野生での視線推定のための顔スケールの変化に関する別の重要な問題に対処する。
さらに,360度視線推定の難易度を,ロバストな平均化手法とともに極域表現の後方視線を符号化することにより処理するモデルを拡張した。
ETH-XGazeデータセットは、スケールの異なる顔は含まないが、複数のスケールから情報を同化するためのモデルの有効性を示す。
多数のスケールの異なる顔を持つ他のベンチマークデータセット(Gaze360とRT-GENE)に対して、提案モデルは、画像またはビデオを使用する場合の視線推定の最先端性能を達成する。
私たちのコードとトレーニング済みモデルは、https://github.com/ashesh-0/multizoomgazeからアクセスできます。
関連論文リスト
- Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation [10.682719521609743]
2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
論文 参考訳(メタデータ) (2024-09-02T02:51:40Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。