Fugu-MT 論文翻訳(概要): 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views

論文の概要: 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views

arxiv url: http://arxiv.org/abs/2212.02997v3
Date: Tue, 12 Dec 2023 13:39:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 05:31:54.211617
Title: 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views
Title（参考訳）: 3dgazenet:合成ビューからの弱スーパービジョンによる視線推定の一般化
Authors: Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Michail Christos Doukas, Jia Guo, Stefanos Zafeiriou
Abstract要約: 本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
参考スコア（独自算出の注目度）: 67.00931529296788
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Developing gaze estimation models that generalize well to unseen domains and in-the-wild conditions remains a challenge with no known best solution. This is mostly due to the difficulty of acquiring ground truth data that cover the distribution of faces, head poses, and environments that exist in the real world. Most recent methods attempt to close the gap between specific source and target domains using domain adaptation. In this work, we propose to train general gaze estimation models which can be directly employed in novel environments without adaptation. To do so, we leverage the observation that head, body, and hand pose estimation benefit from revising them as dense 3D coordinate prediction, and similarly express gaze estimation as regression of dense 3D eye meshes. To close the gap between image domains, we create a large-scale dataset of diverse faces with gaze pseudo-annotations, which we extract based on the 3D geometry of the scene, and design a multi-view supervision framework to balance their effect during training. We test our method in the task of gaze generalization, in which we demonstrate improvement of up to 30% compared to state-of-the-art when no ground truth data are available, and up to 10% when they are. The project material are available for research purposes at https://github.com/Vagver/3DGazeNet.
Abstract（参考訳）: 未発見領域や野生条件によく一般化した視線推定モデルの開発は、既知の最善の解決法がない課題である。これは主に、現実世界に存在する顔、頭の位置、環境の分布をカバーする根拠となる真理データを取得するのが難しいためである。最近の手法では、特定のソースとターゲットドメイン間のギャップをドメイン適応を用いて埋めようとしている。本研究では,新しい環境に適応せずに直接適用可能な一般視線推定モデルを訓練することを提案する。そこで我々は,頭部・身体・手ポーズ推定の利点を高密度3次元座標予測として再検討し,高密度3次元眼メッシュの回帰として視線推定を表現した。画像領域間のギャップを埋めるために,シーンの3次元形状から抽出した視線擬似注釈を用いた多彩な顔の大規模データセットを作成し,その効果のバランスをとるための多視点監視フレームワークを設計する。本手法を視線一般化のタスクでテストし,真理データが得られない場合の最先端技術に比べて最大30%,真理データが得られない場合は最大10%の改善を実証する。プロジェクト資料は、https://github.com/vagver/3dgazenetで研究目的に利用できる。

関連論文リスト

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。 GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文参考訳（メタデータ） (2025-06-02T17:53:09Z)
Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels [10.827081942898506]
我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。 3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
論文参考訳（メタデータ） (2025-02-27T16:35:25Z)
EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T17:57:09Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild [4.089889918897877]
我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。提案手法は,視線推定における将来の研究開発の基盤となる。
論文参考訳（メタデータ） (2024-02-13T09:20:26Z)
A Survey on 3D Gaussian Splatting [51.96747208581275]
3D Gaussian splatting (GS) は、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアなど、数多くのアプリケーションを開くことができる。
論文参考訳（メタデータ） (2024-01-08T13:42:59Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:15:03Z)
L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文参考訳（メタデータ） (2022-03-07T12:35:39Z)
Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。 a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文参考訳（メタデータ） (2021-05-20T14:58:52Z)
360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。このモデルは、クリアアイパッチを抽出する必要がない。モデルを拡張して、360度視線推定の課題に対処する。
論文参考訳（メタデータ） (2020-09-15T08:45:12Z)
Learning to Detect Head Movement in Unconstrained Remote Gaze Estimation in the Wild [19.829721663742124]
本稿では,視線推定に異なるレベルの頭部表現をより堅牢に組み込むことができるエンドツーエンドの視線推定手法を提案する。提案手法は,画像品質の低い実世界のシナリオ,照明の異なるシナリオ,直接目的情報を利用できないシナリオに一般化することができる。
論文参考訳（メタデータ） (2020-04-07T22:38:49Z)
It's Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文参考訳（メタデータ） (2016-11-27T15:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。