Fugu-MT 論文翻訳(概要): UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training

論文の概要: UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training

arxiv url: http://arxiv.org/abs/2502.02307v2
Date: Thu, 13 Mar 2025 15:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 17:08:08.196027
Title: UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training
Title（参考訳）: UniGaze: 大規模事前学習によるユニバーサルゲイズ推定を目指して
Authors: Jiawei Qin, Xucong Zhang, Yusuke Sugano,
Abstract要約: 自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
参考スコア（独自算出の注目度）: 12.680014448486242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite decades of research on data collection and model architectures, current gaze estimation models encounter significant challenges in generalizing across diverse data domains. Recent advances in self-supervised pre-training have shown remarkable performances in generalization across various vision tasks. However, their effectiveness in gaze estimation remains unexplored. We propose UniGaze, for the first time, leveraging large-scale in-the-wild facial datasets for gaze estimation through self-supervised pre-training. Through systematic investigation, we clarify critical factors that are essential for effective pretraining in gaze estimation. Our experiments reveal that self-supervised approaches designed for semantic tasks fail when applied to gaze estimation, while our carefully designed pre-training pipeline consistently improves cross-domain performance. Through comprehensive experiments of challenging cross-dataset evaluation and novel protocols including leave-one-dataset-out and joint-dataset settings, we demonstrate that UniGaze significantly improves generalization across multiple data domains while minimizing reliance on costly labeled data. source code and model are available at https://github.com/ut-vision/UniGaze.
Abstract（参考訳）: データ収集とモデルアーキテクチャに関する何十年もの研究にもかかわらず、現在の視線推定モデルは、多様なデータドメインをまたいだ一般化において重大な課題に直面している。近年の自己教師型事前学習の進歩は、様々な視覚課題にまたがる一般化において顕著なパフォーマンスを示している。しかし、視線推定の有効性は未解明のままである。我々は、UniGazeを初めて提案し、自己教師付き事前学習による視線推定のために、大規模な画像データセットを活用する。組織的な調査を通じて、視線推定において効果的な事前訓練に不可欠な重要な要因を明らかにする。我々の実験では、セマンティックタスク用に設計された自己教師型アプローチは、視線推定に適用した場合に失敗するが、慎重に設計された事前学習パイプラインは、常にクロスドメイン性能を向上する。複数データ領域におけるUniGazeの一般化は,コストのかかるラベル付きデータへの依存を最小限に抑えつつ,徹底的に向上することを示した。ソースコードとモデルはhttps://github.com/ut-vision/UniGaze.comで入手できる。

関連論文リスト

GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文参考訳（メタデータ） (2024-06-28T17:42:08Z)
Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文参考訳（メタデータ） (2024-03-31T17:18:57Z)
CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model [13.890404285565225]
本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
論文参考訳（メタデータ） (2024-03-08T07:37:21Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Unsupervised Gaze-aware Contrastive Learning with Subject-specific Condition [6.547550920819356]
ConGazeは、教師なしの方法で被験者間の一般的な視線認識表現を学習する、対照的な学習ベースのフレームワークである。視線特性を保存し、視線一貫性を維持するために、視線特異的なデータ拡張を導入する。我々はまた、共有特徴抽出器に視線認識と汎用表現を学習させる新しい主題条件投影モジュールを考案した。
論文参考訳（メタデータ） (2023-09-08T09:45:19Z)
Improving 2D Human Pose Estimation in Rare Camera Views with Synthetic Data [24.63316659365843]
本稿では、ポーズとビューを包括的に制御した合成ヒトを生成するためのSMPLベースの手法であるRePoGenを紹介する。トップビューデータセットの実験と、さまざまなポーズを持つ実画像の新しいデータセットにより、COCOデータセットにRePoGenデータを追加することは、以前のアプローチよりも優れていることが示されている。
論文参考訳（メタデータ） (2023-07-13T13:17:50Z)
GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文参考訳（メタデータ） (2023-06-06T16:16:05Z)
Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:15:03Z)
Towards Precision in Appearance-based Gaze Estimation in the Wild [3.4253416336476246]
我々は、より広い頭部ポーズと照明変動を有する大規模な視線推定データセット PARKS-Gaze を提案する。提案されたデータセットはより困難で、既存の組み込みデータセットよりも、見えない参加者にモデルを一般化することができる。
論文参考訳（メタデータ） (2023-02-05T10:09:35Z)
3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文参考訳（メタデータ） (2022-12-06T14:15:17Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文参考訳（メタデータ） (2022-01-20T00:29:45Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。 a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文参考訳（メタデータ） (2021-05-20T14:58:52Z)
Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文参考訳（メタデータ） (2021-03-29T06:35:24Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Learning to Detect Head Movement in Unconstrained Remote Gaze Estimation in the Wild [19.829721663742124]
本稿では,視線推定に異なるレベルの頭部表現をより堅牢に組み込むことができるエンドツーエンドの視線推定手法を提案する。提案手法は,画像品質の低い実世界のシナリオ,照明の異なるシナリオ,直接目的情報を利用できないシナリオに一般化することができる。
論文参考訳（メタデータ） (2020-04-07T22:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。