論文の概要: Multimodal Face Synthesis from Visual Attributes
- arxiv url: http://arxiv.org/abs/2104.04362v1
- Date: Fri, 9 Apr 2021 13:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:03:55.639977
- Title: Multimodal Face Synthesis from Visual Attributes
- Title(参考訳): 視覚属性からのマルチモーダル顔合成
- Authors: Xing Di, Vishal M. Patel
- Abstract要約: 本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
- 参考スコア(独自算出の注目度): 85.87796260802223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesis of face images from visual attributes is an important problem in
computer vision and biometrics due to its applications in law enforcement and
entertainment. Recent advances in deep generative networks have made it
possible to synthesize high-quality face images from visual attributes.
However, existing methods are specifically designed for generating unimodal
images (i.e visible faces) from attributes. In this paper, we propose a novel
generative adversarial network that simultaneously synthesizes identity
preserving multimodal face images (i.e. visible, sketch, thermal, etc.) from
visual attributes without requiring paired data in different domains for
training the network. We introduce a novel generator with multimodal
stretch-out modules to simultaneously synthesize multimodal face images.
Additionally, multimodal stretch-in modules are introduced in the discriminator
which discriminates between real and fake images. Extensive experiments and
comparisons with several state-of-the-art methods are performed to verify the
effectiveness of the proposed attribute-based multimodal synthesis method.
- Abstract(参考訳): 視覚特性からの顔画像の合成は、その法執行や娯楽への応用により、コンピュータビジョンとバイオメトリックスにおいて重要な問題である。
近年の深層生成ネットワークの進歩により,視覚特性から高品質な顔画像の合成が可能になった。
しかし、既存の手法は属性から単眼画像(すなわち可視顔)を生成するために特別に設計されている。
本稿では,マルチモーダル顔画像を保存するアイデンティティを同時に合成する,新たな生成対向ネットワークを提案する。
可視性、スケッチ、熱性など
ネットワークをトレーニングするために異なるドメインのペアデータを必要としない視覚的属性から。
本稿では,マルチモーダル顔画像を同時に合成するマルチモーダルストレッチアウトモジュールを備えた新しいジェネレータを提案する。
さらに、実画像と偽画像の識別を行う識別器にマルチモーダルストレッチインモジュールを導入する。
提案する属性に基づくマルチモーダル合成法の有効性を検証するため,いくつかの最先端手法との比較実験を行った。
関連論文リスト
- Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical
Representations [34.821129614819604]
MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモダリティから欠落した画像を合成する。
階層的な潜在構造を持つマルチモーダルVAEを拡張して,複数のモーダル画像を共通の潜在表現で融合する確率的定式化を導入する。
画像の欠落に対して,マルチモーダルVAE,条件付きGAN,現在の最先端統一手法(ResViT)より優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-15T20:21:03Z) - Generative Adversarial Networks for Brain Images Synthesis: A Review [2.609784101826762]
医用画像において、画像合成とは、ある画像(シーケンス、モダリティ)を別の画像(シーケンス、モダリティ)から推定する過程である。
GAN(Generative Adversarial Network)は、GAN(Generative-based Deep Learning)の一種。
我々は,CTからPETへの画像合成,CTからMRIへの画像合成,PETへの画像合成,およびその逆を含む最近のGANの展開を要約した。
論文 参考訳(メタデータ) (2023-05-16T17:28:06Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z) - Quality Guided Sketch-to-Photo Image Synthesis [12.617078020344618]
ヘアカラーやセックスなどの特徴を持つ複数の合成画像に1つのスケッチを合成する生成逆ネットワークを提案する。
本手法は,合成画像の同一性を損なうことなく,複数の属性割り当てをジェネレータに組み込むことにより,合成画像の視覚的魅力を向上させることを目的としている。
論文 参考訳(メタデータ) (2020-04-20T16:00:01Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。