論文の概要: Identity-Guided Face Generation with Multi-modal Contour Conditions
- arxiv url: http://arxiv.org/abs/2110.04854v1
- Date: Sun, 10 Oct 2021 17:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:03:41.436164
- Title: Identity-Guided Face Generation with Multi-modal Contour Conditions
- Title(参考訳): マルチモーダル輪郭条件を用いたアイデンティティ誘導顔生成
- Authors: Qingyan Bai, Weihao Xia, Fei Yin, Yujiu Yang
- Abstract要約: 本稿では、輪郭と、入力として同一性を指定する余分な画像を取得するフレームワークを提案する。
アイデンティティエンコーダは、主エンコーダを伴ってアイデンティティ関連特徴を抽出し、粗い輪郭情報を得る。
提案手法は1024$times$1024の解像度で写真リアルな結果が得られる。
- 参考スコア(独自算出の注目度): 15.84849740726513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent face generation methods have tried to synthesize faces based on the
given contour condition, like a low-resolution image or a sketch. However, the
problem of identity ambiguity remains unsolved, which usually occurs when the
contour is too vague to provide reliable identity information (e.g., when its
resolution is extremely low). In this work, we propose a framework that takes
the contour and an extra image specifying the identity as the inputs, where the
contour can be of various modalities, including the low-resolution image,
sketch, and semantic label map. This task especially fits the situation of
tracking the known criminals or making intelligent creations for entertainment.
Concretely, we propose a novel dual-encoder architecture, in which an identity
encoder extracts the identity-related feature, accompanied by a main encoder to
obtain the rough contour information and further fuse all the information
together. The encoder output is iteratively fed into a pre-trained StyleGAN
generator until getting a satisfying result. To the best of our knowledge, this
is the first work that achieves identity-guided face generation conditioned on
multi-modal contour images. Moreover, our method can produce photo-realistic
results with 1024$\times$1024 resolution. Code will be available at
https://git.io/Jo4yh.
- Abstract(参考訳): 近年の顔生成法では,低解像度画像やスケッチなど,与えられた輪郭条件に基づいて顔の合成が試みられている。
しかし、アイデンティティの曖昧さの問題は未解決のままであり、通常は輪郭が曖昧すぎて信頼できるアイデンティティ情報を提供できない場合(例えば、その解像度が極端に低い場合)に発生する。
本研究では,輪郭を入力とし,その輪郭を低解像度画像,スケッチ,意味的ラベルマップなど,様々なモダリティの輪郭を表現できる,輪郭と余分な画像を入力として取り出す枠組みを提案する。
このタスクは、既知の犯罪者を追跡したり、エンターテイメントのためのインテリジェントな創造を行う状況に特に適合する。
具体的には、IDエンコーダが主エンコーダを伴ってアイデンティティ関連の特徴を抽出し、粗い輪郭情報を取得し、さらに全ての情報を融合する新しいデュアルエンコーダアーキテクチャを提案する。
エンコーダ出力は、満足な結果が得られるまで、トレーニング済みのStyleGANジェネレータに繰り返し供給される。
我々の知る限りでは、これはマルチモーダル輪郭画像に条件付きID誘導顔生成を実現する最初の作品である。
さらに、1024$\times$1024の解像度で写真実写的な結果が得られる。
コードはhttps://git.io/jo4yhで入手できる。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - HFORD: High-Fidelity and Occlusion-Robust De-identification for Face
Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。
既存の顔の特定方法にはいくつかの問題がある。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - Semantics-Guided Object Removal for Facial Images: with Broad
Applicability and Robust Style Preservation [29.162655333387452]
顔画像における物体の除去と画像の塗布は、顔画像を妨げる物体を特に標的にし、除去し、適切に再構成された顔画像に置き換えるタスクである。
U-netと変調ジェネレータを利用する2つの異なるアプローチは、それぞれに固有の利点があるが、それぞれの手法の固有の欠点にもかかわらず、このタスクに対して広く支持されている。
本稿では,SGIN(Semantics-Guided Inpainting Network)を提案する。
論文 参考訳(メタデータ) (2022-09-29T00:09:12Z) - Learning Disentangled Representation for One-shot Progressive Face
Swapping [65.98684203654908]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
その結果,本手法は,トレーニングサンプルの少ないベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z) - ShapeEditer: a StyleGAN Encoder for Face Swapping [6.848723869850855]
本研究では,高解像度,リアル,高忠実な顔交換のための新しいエンコーダであるShapeEditorを提案する。
私たちのキーとなるアイデアは、事前訓練された高品質のランダムな顔画像生成装置、すなわちStyleGANをバックボーンとして使用することです。
そこで我々は,StyleGANの潜在空間への写像を学習するために,自己教師付き損失関数の集合を提案する。
論文 参考訳(メタデータ) (2021-06-26T09:38:45Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。