論文の概要: 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views
- arxiv url: http://arxiv.org/abs/2212.02997v3
- Date: Tue, 12 Dec 2023 13:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 05:31:54.211617
- Title: 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views
- Title(参考訳): 3dgazenet:合成ビューからの弱スーパービジョンによる視線推定の一般化
- Authors: Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Michail
Christos Doukas, Jia Guo, Stefanos Zafeiriou
- Abstract要約: 本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
- 参考スコア(独自算出の注目度): 67.00931529296788
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing gaze estimation models that generalize well to unseen domains and
in-the-wild conditions remains a challenge with no known best solution. This is
mostly due to the difficulty of acquiring ground truth data that cover the
distribution of faces, head poses, and environments that exist in the real
world. Most recent methods attempt to close the gap between specific source and
target domains using domain adaptation. In this work, we propose to train
general gaze estimation models which can be directly employed in novel
environments without adaptation. To do so, we leverage the observation that
head, body, and hand pose estimation benefit from revising them as dense 3D
coordinate prediction, and similarly express gaze estimation as regression of
dense 3D eye meshes. To close the gap between image domains, we create a
large-scale dataset of diverse faces with gaze pseudo-annotations, which we
extract based on the 3D geometry of the scene, and design a multi-view
supervision framework to balance their effect during training. We test our
method in the task of gaze generalization, in which we demonstrate improvement
of up to 30% compared to state-of-the-art when no ground truth data are
available, and up to 10% when they are. The project material are available for
research purposes at https://github.com/Vagver/3DGazeNet.
- Abstract(参考訳): 未発見領域や野生条件によく一般化した視線推定モデルの開発は、既知の最善の解決法がない課題である。
これは主に、現実世界に存在する顔、頭の位置、環境の分布をカバーする根拠となる真理データを取得するのが難しいためである。
最近の手法では、特定のソースとターゲットドメイン間のギャップをドメイン適応を用いて埋めようとしている。
本研究では,新しい環境に適応せずに直接適用可能な一般視線推定モデルを訓練することを提案する。
そこで我々は,頭部・身体・手ポーズ推定の利点を高密度3次元座標予測として再検討し,高密度3次元眼メッシュの回帰として視線推定を表現した。
画像領域間のギャップを埋めるために,シーンの3次元形状から抽出した視線擬似注釈を用いた多彩な顔の大規模データセットを作成し,その効果のバランスをとるための多視点監視フレームワークを設計する。
本手法を視線一般化のタスクでテストし,真理データが得られない場合の最先端技術に比べて最大30%,真理データが得られない場合は最大10%の改善を実証する。
プロジェクト資料は、https://github.com/vagver/3dgazenetで研究目的に利用できる。
関連論文リスト
- GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild [4.089889918897877]
我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。
我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。
提案手法は,視線推定における将来の研究開発の基盤となる。
論文 参考訳(メタデータ) (2024-02-13T09:20:26Z) - A Survey on 3D Gaussian Splatting [51.96747208581275]
3D Gaussian splatting (GS) は、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。
本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。
前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアなど、数多くのアプリケーションを開くことができる。
論文 参考訳(メタデータ) (2024-01-08T13:42:59Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z) - Learning to Detect Head Movement in Unconstrained Remote Gaze Estimation
in the Wild [19.829721663742124]
本稿では,視線推定に異なるレベルの頭部表現をより堅牢に組み込むことができるエンドツーエンドの視線推定手法を提案する。
提案手法は,画像品質の低い実世界のシナリオ,照明の異なるシナリオ,直接目的情報を利用できないシナリオに一般化することができる。
論文 参考訳(メタデータ) (2020-04-07T22:38:49Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。