論文の概要: UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training
- arxiv url: http://arxiv.org/abs/2502.02307v1
- Date: Tue, 04 Feb 2025 13:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:57.590727
- Title: UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training
- Title(参考訳): UniGaze: 大規模事前学習によるユニバーサルゲイズ推定を目指して
- Authors: Jiawei Qin, Xucong Zhang, Yusuke Sugano,
- Abstract要約: 我々は,視線推定のための自己教師付き事前学習を通じて,大規模な画像データセットを活用するUniGazeを提案する。
視覚変換器 (ViT) のバックボーンを用いて, 正規化顔画像にMasked Autoencoder (MAE) を事前トレーニングすることにより, 下流の視線推定モデルで求められる特定の入力空間内での適切な特徴表現を学習する。
- 参考スコア(独自算出の注目度): 12.680014448486242
- License:
- Abstract: Despite decades of research on data collection and model architectures, current gaze estimation models face significant challenges in generalizing across diverse data domains. While recent advances in self-supervised pre-training have shown remarkable potential for improving model generalization in various vision tasks, their effectiveness in gaze estimation remains unexplored due to the geometric nature of the gaze regression task. We propose UniGaze, which leverages large-scale, in-the-wild facial datasets through self-supervised pre-training for gaze estimation. We carefully curate multiple facial datasets that capture diverse variations in identity, lighting, background, and head poses. By directly applying Masked Autoencoder (MAE) pre-training on normalized face images with a Vision Transformer (ViT) backbone, our UniGaze learns appropriate feature representations within the specific input space required by downstream gaze estimation models. Through comprehensive experiments using challenging cross-dataset evaluation and novel protocols, including leave-one-dataset-out and joint-dataset settings, we demonstrate that UniGaze significantly improves generalization across multiple data domains while minimizing reliance on costly labeled data. The source code and pre-trained models will be released upon acceptance.
- Abstract(参考訳): データ収集とモデルアーキテクチャに関する何十年もの研究にもかかわらず、現在の視線推定モデルは、多様なデータドメインをまたいだ一般化において重大な課題に直面している。
近年の自己教師型事前学習の進歩は、様々な視覚タスクにおけるモデル一般化の改善に顕著な可能性を示しているが、視線回帰タスクの幾何学的性質のため、視線推定の有効性は未解明のままである。
我々は,視線推定のための自己教師付き事前学習を通じて,大規模な画像データセットを活用するUniGazeを提案する。
複数の顔データセットを慎重にキュレートし、アイデンティティ、照明、背景、頭ポーズのさまざまなバリエーションをキャプチャします。
視覚変換器 (ViT) のバックボーンを用いて, 正規化顔画像にMasked Autoencoder (MAE) を事前トレーニングすることにより, 下流の視線推定モデルで求められる特定の入力空間内での適切な特徴表現を学習する。
複数データ領域におけるUniGazeの一般化は, コストのかかるラベル付きデータへの依存を最小限に抑えつつ, 顕著に向上することを示した。
ソースコードと事前訓練されたモデルは、受け入れ次第リリースされる。
関連論文リスト
- GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Improving 2D Human Pose Estimation in Rare Camera Views with Synthetic Data [24.63316659365843]
本稿では、ポーズとビューを包括的に制御した合成ヒトを生成するためのSMPLベースの手法であるRePoGenを紹介する。
トップビューデータセットの実験と、さまざまなポーズを持つ実画像の新しいデータセットにより、COCOデータセットにRePoGenデータを追加することは、以前のアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-07-13T13:17:50Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。