論文の概要: Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels
- arxiv url: http://arxiv.org/abs/2502.20249v1
- Date: Thu, 27 Feb 2025 16:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:16.670192
- Title: Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels
- Title(参考訳): 視線追従ラベルを用いた弱視による野生における3次元視線推定の促進
- Authors: Pierre Vuillecard, Jean-Marc Odobez,
- Abstract要約: 我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。
画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
- 参考スコア(独自算出の注目度): 10.827081942898506
- License:
- Abstract: Accurate 3D gaze estimation in unconstrained real-world environments remains a significant challenge due to variations in appearance, head pose, occlusion, and the limited availability of in-the-wild 3D gaze datasets. To address these challenges, we introduce a novel Self-Training Weakly-Supervised Gaze Estimation framework (ST-WSGE). This two-stage learning framework leverages diverse 2D gaze datasets, such as gaze-following data, which offer rich variations in appearances, natural scenes, and gaze distributions, and proposes an approach to generate 3D pseudo-labels and enhance model generalization. Furthermore, traditional modality-specific models, designed separately for images or videos, limit the effective use of available training data. To overcome this, we propose the Gaze Transformer (GaT), a modality-agnostic architecture capable of simultaneously learning static and dynamic gaze information from both image and video datasets. By combining 3D video datasets with 2D gaze target labels from gaze following tasks, our approach achieves the following key contributions: (i) Significant state-of-the-art improvements in within-domain and cross-domain generalization on unconstrained benchmarks like Gaze360 and GFIE, with notable cross-modal gains in video gaze estimation; (ii) Superior cross-domain performance on datasets such as MPIIFaceGaze and Gaze360 compared to frontal face methods. Code and pre-trained models will be released to the community.
- Abstract(参考訳): 実世界の制約のない環境での正確な3D視線推定は、外見、頭部ポーズ、閉塞性、および視野内3D視線データセットの限られた可用性のため、依然として重要な課題である。
これらの課題に対処するため、我々は、新しい自己学習弱弱弱弱感推定フレームワーク(ST-WSGE)を紹介した。
この2段階学習フレームワークは、視線追跡データなどの多様な2次元視線データセットを活用し、外見、自然シーン、視線分布の多様なバリエーションを提供し、3次元擬似ラベルを生成するアプローチを提案し、モデル一般化を強化する。
さらに、画像やビデオ用に別々に設計された伝統的なモダリティ特化モデルは、利用可能なトレーニングデータの有効利用を制限する。
これを解決するために、画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3Dビデオデータセットと2D視線目標ラベルを組み合わせることで、以下の重要なコントリビューションが達成される。
i) Gaze360 や GFIE のような制約のないベンチマーク上でのドメイン内およびクロスドメインの一般化における最先端の進歩及びビデオ視線推定における顕著なクロスモーダルゲイン
(II)MPIIFaceGazeやGaze360などのデータセット上でのドメイン間性能は,正面面法と比較した。
コードと事前訓練されたモデルはコミュニティにリリースされる。
関連論文リスト
- UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training [12.680014448486242]
我々は,視線推定のための自己教師付き事前学習を通じて,大規模な画像データセットを活用するUniGazeを提案する。
視覚変換器 (ViT) のバックボーンを用いて, 正規化顔画像にMasked Autoencoder (MAE) を事前トレーニングすることにより, 下流の視線推定モデルで求められる特定の入力空間内での適切な特徴表現を学習する。
論文 参考訳(メタデータ) (2025-02-04T13:24:23Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Implicit Gaussian Splatting with Efficient Multi-Level Tri-Plane Representation [45.582869951581785]
Implicit Gaussian Splatting (IGS)は、明示的なポイントクラウドと暗黙的な機能埋め込みを統合する革新的なハイブリッドモデルである。
本稿では,空間正規化を具体化したレベルベースプログレッシブトレーニング手法を提案する。
我々のアルゴリズムは、数MBしか使用せず、ストレージ効率とレンダリング忠実さを効果的にバランスして、高品質なレンダリングを実現することができる。
論文 参考訳(メタデータ) (2024-08-19T14:34:17Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。