論文の概要: OmniGaze: Reward-inspired Generalizable Gaze Estimation In The Wild
- arxiv url: http://arxiv.org/abs/2510.13660v1
- Date: Wed, 15 Oct 2025 15:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.732218
- Title: OmniGaze: Reward-inspired Generalizable Gaze Estimation In The Wild
- Title(参考訳): OmniGaze: 野生での逆転に触発された一般のゲイズ推定
- Authors: Hongyu Qu, Jianan Wei, Xiangbo Shu, Yazhou Yao, Wenguan Wang, Jinhui Tang,
- Abstract要約: 現在の3次元視線推定法は、多様なデータ領域にまたがる一般化に苦慮している。
OmniGazeは3次元視線推定のための半教師付きフレームワークである。
OmniGazeは5つのデータセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 104.57404324262556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current 3D gaze estimation methods struggle to generalize across diverse data domains, primarily due to i) the scarcity of annotated datasets, and ii) the insufficient diversity of labeled data. In this work, we present OmniGaze, a semi-supervised framework for 3D gaze estimation, which utilizes large-scale unlabeled data collected from diverse and unconstrained real-world environments to mitigate domain bias and generalize gaze estimation in the wild. First, we build a diverse collection of unlabeled facial images, varying in facial appearances, background environments, illumination conditions, head poses, and eye occlusions. In order to leverage unlabeled data spanning a broader distribution, OmniGaze adopts a standard pseudo-labeling strategy and devises a reward model to assess the reliability of pseudo labels. Beyond pseudo labels as 3D direction vectors, the reward model also incorporates visual embeddings extracted by an off-the-shelf visual encoder and semantic cues from gaze perspective generated by prompting a Multimodal Large Language Model to compute confidence scores. Then, these scores are utilized to select high-quality pseudo labels and weight them for loss computation. Extensive experiments demonstrate that OmniGaze achieves state-of-the-art performance on five datasets under both in-domain and cross-domain settings. Furthermore, we also evaluate the efficacy of OmniGaze as a scalable data engine for gaze estimation, which exhibits robust zero-shot generalization on four unseen datasets.
- Abstract(参考訳): 現在の3次元視線推定法は、主にデータ領域の多様化に苦慮している。
一 注釈付きデータセットの不足及び
二 ラベル付きデータの多様性が不十分であること。
本研究では,3次元視線推定のための半教師付きフレームワークであるOmniGazeについて述べる。
まず, 顔の外観, 背景環境, 照明条件, 頭部ポーズ, 眼球閉塞など, 多様な顔画像のコレクションを構築した。
広く分布するラベルのないデータを活用するために、OmniGazeは標準的な擬似ラベル戦略を採用し、擬似ラベルの信頼性を評価するための報酬モデルを開発した。
3次元方向ベクトルとしての擬似ラベル以外にも、報奨モデルには、市販のビジュアルエンコーダによって抽出された視覚埋め込みと、マルチモーダル大言語モデルに信頼性スコアの計算を促すことで生成される視線視点からの意味的手がかりが組み込まれている。
そして、これらのスコアを用いて高品質な擬似ラベルを選択し、損失計算のために重み付けする。
大規模な実験により、OmniGazeはドメイン内設定とクロスドメイン設定の両方で5つのデータセットで最先端のパフォーマンスを実現している。
さらに,視線推定のためのスケーラブルなデータエンジンであるOmniGazeの有効性も評価した。
関連論文リスト
- Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels [10.827081942898506]
我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。
画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
論文 参考訳(メタデータ) (2025-02-27T16:35:25Z) - UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training [12.680014448486242]
自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。
本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。
コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-04T13:24:23Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。