論文の概要: CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild
- arxiv url: http://arxiv.org/abs/2402.08316v1
- Date: Tue, 13 Feb 2024 09:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:51:00.751102
- Title: CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild
- Title(参考訳): crossgaze:野生の3次元視線推定のための強力な手法
- Authors: Andy C\u{a}trun\u{a}, Adrian Cosma, Emilian R\u{a}doi
- Abstract要約: 我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。
我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。
提案手法は,視線推定における将来の研究開発の基盤となる。
- 参考スコア(独自算出の注目度): 4.089889918897877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gaze estimation, the task of predicting where an individual is looking, is a
critical task with direct applications in areas such as human-computer
interaction and virtual reality. Estimating the direction of looking in
unconstrained environments is difficult, due to the many factors that can
obscure the face and eye regions. In this work we propose CrossGaze, a strong
baseline for gaze estimation, that leverages recent developments in computer
vision architectures and attention-based modules. Unlike previous approaches,
our method does not require a specialised architecture, utilizing already
established models that we integrate in our architecture and adapt for the task
of 3D gaze estimation. This approach allows for seamless updates to the
architecture as any module can be replaced with more powerful feature
extractors. On the Gaze360 benchmark, our model surpasses several
state-of-the-art methods, achieving a mean angular error of 9.94 degrees. Our
proposed model serves as a strong foundation for future research and
development in gaze estimation, paving the way for practical and accurate gaze
prediction in real-world scenarios.
- Abstract(参考訳): 視線推定は、個人が見ている場所を予測するタスクであり、人間とコンピュータのインタラクションやバーチャルリアリティーといった分野における直接的な応用にとって重要なタスクである。
非拘束環境における視線の方向の推定は、顔と眼の領域を曖昧にする多くの要因により困難である。
本研究は,コンピュータビジョンアーキテクチャとアテンションベースモジュールの最近の発展を生かした,視線推定のための強力なベースラインであるCrossGazeを提案する。
従来の手法とは異なり,本手法では,すでに確立されているモデルを活用して3次元視線推定の課題に適応する,特別なアーキテクチャを必要としない。
このアプローチにより、任意のモジュールをより強力な機能抽出器に置き換えることができるため、アーキテクチャをシームレスに更新することができる。
Gaze360ベンチマークでは、我々のモデルはいくつかの最先端手法を超え、平均角誤差9.94度を達成する。
提案モデルは,視線推定における将来の研究・発展の基盤となり,現実のシナリオにおける現実的かつ正確な視線予測の道を開いた。
関連論文リスト
- GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Investigation of Architectures and Receptive Fields for Appearance-based
Gaze Estimation [29.154335016375367]
本稿では、ResNetアーキテクチャのいくつかの単純なパラメータをチューニングすることで、既存のガンマ推定タスクの最先端手法よりも優れていることを示す。
ETH-XGazeが3.64、MPIIFaceGazeが4.50、Gaze360が9.13の3つのデータセットで最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-18T14:41:51Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z) - Toward Foundation Models for Earth Monitoring: Proposal for a Climate
Change Benchmark [95.19070157520633]
近年の自己スーパービジョンの進歩は、大量の教師なしデータ上で大規模なニューラルネットワークを事前訓練することで、下流タスクの一般化が著しく増加することを示している。
基礎モデルとして最近作られたそのようなモデルは、自然言語処理の分野に転換してきた。
気候変動に関連する様々な下流タスクからなる新しいベンチマークを開発することを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。