Fugu-MT 論文翻訳(概要): Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement

論文の概要: Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement

arxiv url: http://arxiv.org/abs/2305.16140v1
Date: Thu, 25 May 2023 15:15:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 14:31:52.177662
Title: Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement
Title（参考訳）: 新規ビュー合成と特徴分散による領域適応フルフェイス・ゲイズ推定
Authors: Jiawei Qin, Takuru Shimoyama, Xucong Zhang, Yusuke Sugano
Abstract要約: 本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。単分子再構成合成学習データのみを用いたモデルでは,大きなラベル範囲を持つ実データに対して比較可能となることを示す。
参考スコア（独自算出の注目度）: 16.75777362520317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Along with the recent development of deep neural networks, appearance-based gaze estimation has succeeded considerably when training and testing within the same domain. Compared to the within-domain task, the variance of different domains makes the cross-domain performance drop severely, preventing gaze estimation deployment in real-world applications. Among all the factors, ranges of head pose and gaze are believed to play a significant role in the final performance of gaze estimation, while collecting large ranges of data is expensive. This work proposes an effective model training pipeline consisting of a training data synthesis and a gaze estimation model for unsupervised domain adaptation. The proposed data synthesis leverages the single-image 3D reconstruction to expand the range of the head poses from the source domain without requiring a 3D facial shape dataset. To bridge the inevitable gap between synthetic and real images, we further propose an unsupervised domain adaptation method suitable for synthetic full-face data. We propose a disentangling autoencoder network to separate gaze-related features and introduce background augmentation consistency loss to utilize the characteristics of the synthetic source domain. Through comprehensive experiments, we show that the model only using monocular-reconstructed synthetic training data can perform comparably to real data with a large label range. Our proposed domain adaptation approach further improves the performance on multiple target domains. The code and data will be available at \url{https://github.com/ut-vision/AdaptiveGaze}.
Abstract（参考訳）: 近年のディープニューラルネットワークの発展に伴い、外見に基づく視線推定は、同じドメイン内でのトレーニングとテストにおいて大きく成功している。ドメイン内タスクと比較して、異なるドメインのばらつきはドメイン間のパフォーマンスを著しく低下させ、現実世界のアプリケーションにおける視線推定のデプロイを防いでいる。これらの要因のうち、頭部ポーズと視線の範囲は、視線推定の最終性能において重要な役割を担っていると考えられているが、大量のデータ収集は高価である。本研究では、教師なし領域適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案するデータ合成は,3次元顔形状データセットを必要とせず,ソース領域からの頭部ポーズ範囲を拡大するために,単像3次元再構成を利用する。合成画像と実画像の間に必然的なギャップを埋めるために,合成顔データに適した教師なし領域適応法を提案する。本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。包括的実験により,単眼再構成合成学習データのみを用いたモデルが,ラベル範囲の広い実データに対して比較可能なことを示す。提案するドメイン適応アプローチは,複数の対象ドメインのパフォーマンスをさらに向上させる。コードとデータは \url{https://github.com/ut-vision/AdaptiveGaze} で入手できる。

関連論文リスト

Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models [14.696438400081114]
本稿では,UAVに基づく人体検出のための合成データを変換するための3段階拡散型フレームワークを提案する。 Cwdはグローバルなスタイルとローカルなコンテンツドメインの相違を明確に分離し、3つのモジュールを使ってそれらのギャップを埋める。提案手法は,Semantic-DroneベンチマークでmAP50を最大14.1ドルで改善する。
論文参考訳（メタデータ） (2025-12-15T19:57:36Z)
Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文参考訳（メタデータ） (2025-03-17T18:08:03Z)
Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-29T17:59:45Z)
Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation [1.3654846342364308]
本研究では、事前訓練されたテキスト・画像拡散モデルにおいて、人間の形状とポーズを条件付きで制御する手法を提案する。これらの拡散モデルを微調整して新しい条件に適合させるには、大きなデータセットと高品質なアノテーションが必要である。合成条件情報を分離することで画像品質を維持するドメイン適応手法を提案する。
論文参考訳（メタデータ） (2024-11-07T14:02:41Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
Compositional Semantic Mix for Domain Adaptation in Point Cloud Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-28T14:43:36Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
Domain Adaptation of Synthetic Driving Datasets for Real-World Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。本稿では,このような手法を改良するための新しい手法を提案し,評価する。本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文参考訳（メタデータ） (2023-02-08T15:51:54Z)
One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文参考訳（メタデータ） (2022-12-14T15:54:15Z)
Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。 CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文参考訳（メタデータ） (2022-12-09T05:07:43Z)
3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文参考訳（メタデータ） (2022-12-06T14:15:17Z)
Style-transfer GANs for bridging the domain gap in synthetic pose estimator training [8.508403388002133]
画素レベルの画像変換に汎用的なGANモデルを採用することを提案する。得られたモデルは、トレーニング中または推論時に、ドメインギャップをブリッジするために使用される。ドメインランダム化の程度で訓練されたモデルと比較すると,モデルの性能は大幅に向上した。
論文参考訳（メタデータ） (2020-04-28T17:35:03Z)
Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision [73.76277367528657]
畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。この制限に対処するために、グラフィックエンジンから生成された注釈付きデータを使用してセグメンテーションモデルをトレーニングする。ドメイン間およびドメイン間ギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。
論文参考訳（メタデータ） (2020-04-16T15:24:11Z)
Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。本稿では,ドメイン適応手法を提案する。
論文参考訳（メタデータ） (2020-02-20T08:51:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。