論文の概要: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views
- arxiv url: http://arxiv.org/abs/2212.02997v2
- Date: Tue, 28 Mar 2023 15:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 19:08:03.462538
- Title: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views
- Title(参考訳): 合成視点からの弱スーパービジョンによる注視推定の一般化
- Authors: Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Michail
Christos Doukas, Jia Guo, Stefanos Zafeiriou
- Abstract要約: 本稿では,3次元幾何認識擬似アノテーションに基づく一般的な視線推定モデルを訓練する。
我々は、既存の視線データセットに剛性のある3D眼球を装着することで、互換性のある地上事実の欠如を克服する。
- 参考スコア(独自算出の注目度): 67.48332133329339
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing gaze estimation models that generalize well to unseen domains and
in-the-wild conditions remains a challenge with no known best solution. This is
mostly due to the difficulty of acquiring ground truth data that cover the
distribution of possible faces, head poses and environmental conditions that
exist in the real world. In this work, we propose to train general gaze
estimation models based on 3D geometry-aware gaze pseudo-annotations which we
extract from arbitrary unlabelled face images, which are abundantly available
in the internet. Additionally, we leverage the observation that head, body and
hand pose estimation benefit from revising them as dense 3D coordinate
prediction, and similarly express gaze estimation as regression of dense 3D eye
meshes. We overcome the absence of compatible ground truth by fitting rigid 3D
eyeballs on existing gaze datasets and design a multi-view supervision
framework to balance the effect of pseudo-labels during training. We test our
method in the task of gaze generalization, in which we demonstrate improvement
of up to $30\%$ compared to state-of-the-art when no ground truth data are
available, and up to $10\%$ when they are. The project material will become
available for research purposes.
- Abstract(参考訳): 未発見領域や野生条件によく一般化した視線推定モデルの開発は、既知の最善の解決法がない課題である。
これは主に、現実世界に存在する可能性のある顔、頭ポーズ、環境条件の分布をカバーする地上の真実データを取得するのが難しいためである。
本研究では,インターネット上に豊富に存在する任意の顔画像から抽出した3次元幾何認識型擬似アノテーションに基づいて,一般的な視線推定モデルを訓練することを提案する。
さらに,頭部,体,手の位置推定は,これらを高密度な3次元座標予測として再検討することの利点を生かし,同様に高密度な3次元眼網の回帰として視線推定を表現する。
既存の視線データセットに剛性のある3d眼球を取り付け、トレーニング中の擬似ラベルの効果をバランスさせるマルチビュー監視フレームワークを設計することで、互換性のある地上真実の欠如を克服する。
本手法を視線一般化のタスクでテストし,真理データが得られない場合の最先端技術と比較して最大30 %$,真理データが得られない場合は最大10 %$であることを示す。
プロジェクト資料は研究目的で利用可能になります。
関連論文リスト
- GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild [4.089889918897877]
我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。
我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。
提案手法は,視線推定における将来の研究開発の基盤となる。
論文 参考訳(メタデータ) (2024-02-13T09:20:26Z) - A Survey on 3D Gaussian Splatting [51.96747208581275]
3D Gaussian splatting (GS) は、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。
本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。
前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアなど、数多くのアプリケーションを開くことができる。
論文 参考訳(メタデータ) (2024-01-08T13:42:59Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z) - Learning to Detect Head Movement in Unconstrained Remote Gaze Estimation
in the Wild [19.829721663742124]
本稿では,視線推定に異なるレベルの頭部表現をより堅牢に組み込むことができるエンドツーエンドの視線推定手法を提案する。
提案手法は,画像品質の低い実世界のシナリオ,照明の異なるシナリオ,直接目的情報を利用できないシナリオに一般化することができる。
論文 参考訳(メタデータ) (2020-04-07T22:38:49Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。