論文の概要: Towards Multi-domain Face Landmark Detection with Synthetic Data from
Diffusion model
- arxiv url: http://arxiv.org/abs/2401.13191v1
- Date: Wed, 24 Jan 2024 02:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:42:37.497081
- Title: Towards Multi-domain Face Landmark Detection with Synthetic Data from
Diffusion model
- Title(参考訳): 拡散モデルからの合成データを用いた多領域顔ランドマーク検出に向けて
- Authors: Yuanming Li, Gwantae Kim, Jeong-gi Kwak, Bon-hwa Ku, Hanseok Ko
- Abstract要約: 深層学習に基づく眼球内顔の顔のランドマーク検出は、大幅な改善が達成された。
他の領域(漫画、似顔絵など)では、顔のランドマーク検出にはまだ課題がある。
限られたデータセットと事前学習拡散モデルを効果的に活用する2段階のトレーニング手法を設計する。
提案手法は,マルチドメイン顔ランドマーク検出における既存手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 27.307563102526192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning-based facial landmark detection for in-the-wild faces
has achieved significant improvement. However, there are still challenges in
face landmark detection in other domains (e.g. cartoon, caricature, etc). This
is due to the scarcity of extensively annotated training data. To tackle this
concern, we design a two-stage training approach that effectively leverages
limited datasets and the pre-trained diffusion model to obtain aligned pairs of
landmarks and face in multiple domains. In the first stage, we train a
landmark-conditioned face generation model on a large dataset of real faces. In
the second stage, we fine-tune the above model on a small dataset of
image-landmark pairs with text prompts for controlling the domain. Our new
designs enable our method to generate high-quality synthetic paired datasets
from multiple domains while preserving the alignment between landmarks and
facial features. Finally, we fine-tuned a pre-trained face landmark detection
model on the synthetic dataset to achieve multi-domain face landmark detection.
Our qualitative and quantitative results demonstrate that our method
outperforms existing methods on multi-domain face landmark detection.
- Abstract(参考訳): 近年,深層学習による顔の顔のランドマーク検出が大幅に改善されている。
しかし、他の領域(例えば、漫画、似顔絵など)では、顔のランドマーク検出にはまだ課題がある。
これは、広範囲に注釈付きトレーニングデータが不足しているためである。
この問題に対処するために,我々は,限られたデータセットと事前学習された拡散モデルを有効に活用して,複数の領域におけるランドマークと顔のアライメントペアを得る2段階のトレーニング手法を設計した。
最初の段階では、実顔の大きなデータセット上でランドマーク条件付き顔生成モデルを訓練する。
第2段階では、画像とランドマークのペアの小さなデータセット上に、ドメインを制御するためのテキストプロンプトを微調整する。
提案手法は,ランドマークと顔特徴の整合を維持しつつ,複数の領域から高品質な合成ペアデータセットを生成することができる。
最後に,学習済みの顔ランドマーク検出モデルを合成データセット上に微調整し,多領域顔ランドマーク検出を実現する。
定性的かつ定量的な結果は,マルチドメイン顔ランドマーク検出における既存手法よりも優れていることを示す。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - Pretrained equivariant features improve unsupervised landmark discovery [69.02115180674885]
我々は、この課題を克服する2段階の教師なしアプローチを、強力なピクセルベースの特徴を初めて学習することによって定式化する。
本手法は,いくつかの難解なランドマーク検出データセットにおいて最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-04-07T05:42:11Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。