論文の概要: UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training
- arxiv url: http://arxiv.org/abs/2502.02307v2
- Date: Thu, 13 Mar 2025 15:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:36.877491
- Title: UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training
- Title(参考訳): UniGaze: 大規模事前学習によるユニバーサルゲイズ推定を目指して
- Authors: Jiawei Qin, Xucong Zhang, Yusuke Sugano,
- Abstract要約: 自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。
本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。
コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 12.680014448486242
- License:
- Abstract: Despite decades of research on data collection and model architectures, current gaze estimation models encounter significant challenges in generalizing across diverse data domains. Recent advances in self-supervised pre-training have shown remarkable performances in generalization across various vision tasks. However, their effectiveness in gaze estimation remains unexplored. We propose UniGaze, for the first time, leveraging large-scale in-the-wild facial datasets for gaze estimation through self-supervised pre-training. Through systematic investigation, we clarify critical factors that are essential for effective pretraining in gaze estimation. Our experiments reveal that self-supervised approaches designed for semantic tasks fail when applied to gaze estimation, while our carefully designed pre-training pipeline consistently improves cross-domain performance. Through comprehensive experiments of challenging cross-dataset evaluation and novel protocols including leave-one-dataset-out and joint-dataset settings, we demonstrate that UniGaze significantly improves generalization across multiple data domains while minimizing reliance on costly labeled data. source code and model are available at https://github.com/ut-vision/UniGaze.
- Abstract(参考訳): データ収集とモデルアーキテクチャに関する何十年もの研究にもかかわらず、現在の視線推定モデルは、多様なデータドメインをまたいだ一般化において重大な課題に直面している。
近年の自己教師型事前学習の進歩は、様々な視覚課題にまたがる一般化において顕著なパフォーマンスを示している。
しかし、視線推定の有効性は未解明のままである。
我々は、UniGazeを初めて提案し、自己教師付き事前学習による視線推定のために、大規模な画像データセットを活用する。
組織的な調査を通じて、視線推定において効果的な事前訓練に不可欠な重要な要因を明らかにする。
我々の実験では、セマンティックタスク用に設計された自己教師型アプローチは、視線推定に適用した場合に失敗するが、慎重に設計された事前学習パイプラインは、常にクロスドメイン性能を向上する。
複数データ領域におけるUniGazeの一般化は,コストのかかるラベル付きデータへの依存を最小限に抑えつつ,徹底的に向上することを示した。
ソースコードとモデルはhttps://github.com/ut-vision/UniGaze.comで入手できる。
関連論文リスト
- GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Improving 2D Human Pose Estimation in Rare Camera Views with Synthetic Data [24.63316659365843]
本稿では、ポーズとビューを包括的に制御した合成ヒトを生成するためのSMPLベースの手法であるRePoGenを紹介する。
トップビューデータセットの実験と、さまざまなポーズを持つ実画像の新しいデータセットにより、COCOデータセットにRePoGenデータを追加することは、以前のアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-07-13T13:17:50Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。