論文の概要: DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided
Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2302.06908v1
- Date: Tue, 14 Feb 2023 08:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:52:57.068661
- Title: DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided
Latent Diffusion Model
- Title(参考訳): DiffFaceSketch:Sketch-Guided Latent Diffusion Modelを用いた高忠実顔画像合成
- Authors: Yichen Peng, Chunqi Zhao, Haoran Xie, Tsukasa Fukusato, and Kazunori
Miyata
- Abstract要約: 我々は,Sketch-Guided Latent Diffusion Model (SGLDM)を紹介した。
SGLDMは、さまざまな抽象レベルのスケッチから、異なる表情、顔のアクセサリー、ヘアスタイルで高品質な顔画像を合成することができる。
- 参考スコア(独自算出の注目度): 8.1818090854822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing face images from monochrome sketches is one of the most
fundamental tasks in the field of image-to-image translation. However, it is
still challenging to (1)~make models learn the high-dimensional face features
such as geometry and color, and (2)~take into account the characteristics of
input sketches. Existing methods often use sketches as indirect inputs (or as
auxiliary inputs) to guide the models, resulting in the loss of sketch features
or the alteration of geometry information. In this paper, we introduce a
Sketch-Guided Latent Diffusion Model (SGLDM), an LDM-based network architect
trained on the paired sketch-face dataset. We apply a Multi-Auto-Encoder (AE)
to encode the different input sketches from different regions of a face from
pixel space to a feature map in latent space, which enables us to reduce the
dimension of the sketch input while preserving the geometry-related information
of local face details. We build a sketch-face paired dataset based on the
existing method that extracts the edge map from an image. We then introduce a
Stochastic Region Abstraction (SRA), an approach to augment our dataset to
improve the robustness of SGLDM to handle sketch input with arbitrary
abstraction. The evaluation study shows that SGLDM can synthesize high-quality
face images with different expressions, facial accessories, and hairstyles from
various sketches with different abstraction levels.
- Abstract(参考訳): モノクロスケッチからの顔画像の合成は、画像から画像への変換の分野で最も基本的なタスクの1つである。
しかし,(1) -メイクモデルでは幾何や色などの高次元の顔の特徴を学習し,(2) - 入力スケッチの特徴を考慮することは依然として困難である。
既存の手法では、スケッチを間接的な入力(または補助入力)として使用してモデルをガイドし、スケッチの特徴の喪失や幾何情報の変更をもたらす。
本稿では,Sketch-Guided Latent Diffusion Model (SGLDM)を提案する。
マルチオートエンコーダ(AE)を用いて画素空間の異なる領域から潜在空間の特徴マップに異なる入力スケッチを符号化し、局所的な顔の詳細の幾何学的情報を保持しながらスケッチ入力の寸法を小さくすることができる。
画像からエッジマップを抽出する既存の手法に基づいて,スケッチ面対のデータセットを構築する。
次にSRA(Stochastic Region Abstraction)を導入し、データセットを拡張してSGLDMの堅牢性を改善し、任意の抽象化でスケッチ入力を処理する。
評価実験により,SGLDMは,表現の異なる高品質な顔画像,顔のアクセサリ,ヘアスタイルを,抽象レベルの異なるスケッチから合成できることがわかった。
関連論文リスト
- Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - SENS: Part-Aware Sketch-based Implicit Neural Shape Modeling [124.3266213819203]
SENSは手描きスケッチから3Dモデルを生成し編集するための新しい手法である。
SENSはスケッチを分析し、部品をViTパッチエンコーディングにエンコードする。
SENSは部分再構成による精細化をサポートし、微調整とアーティファクトの除去を可能にする。
論文 参考訳(メタデータ) (2023-06-09T17:50:53Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Learning Geometry-aware Representations by Sketching [20.957964436294873]
我々は,人間の行動にインスパイアされたスケッチによってシーンを表現する学習を提案する。
LBS(Learning by Sketching)と呼ばれる本手法では,映像をカラーストロークの集合に変換し,シーンの幾何学的情報を明示的に組み込む。
論文 参考訳(メタデータ) (2023-04-17T12:23:32Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。
提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。
本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文 参考訳(メタデータ) (2022-03-18T01:42:59Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z) - DeepFacePencil: Creating Face Images from Freehand Sketches [77.00929179469559]
既存の画像から画像への変換には、大規模なスケッチと画像のデータセットが必要である。
本稿では,手描きスケッチから写真リアルな顔画像を生成するための効果的なツールであるDeepFacePencilを提案する。
論文 参考訳(メタデータ) (2020-08-31T03:35:21Z) - Deep Generation of Face Images from Sketches [36.146494762987146]
ディープ・イメージ・ツー・イメージの翻訳技術により、フリーハンドスケッチから高速に顔画像を生成することができる。
既存のソリューションはスケッチに過度に適合する傾向にあり、プロのスケッチやエッジマップを入力として必要とします。
本稿では,画像の形状空間を暗黙的にモデル化し,この空間の顔画像を合成し,入力スケッチを近似する手法を提案する。
本手法は,入力スケッチをソフトな制約として使用することにより,粗いスケッチや不完全なスケッチであっても高品質な顔画像を生成することができる。
論文 参考訳(メタデータ) (2020-06-01T16:20:23Z) - SketchDesc: Learning Local Sketch Descriptors for Multi-view
Correspondence [68.63311821718416]
我々はマルチビュースケッチ対応の問題について検討し、同じオブジェクトの異なるビューを持つ複数のフリーハンドスケッチを入力として扱う。
異なる視点における対応する点の視覚的特徴は、非常に異なる可能性があるため、この問題は困難である。
我々は、深層学習アプローチを採用し、データから新しいローカルスケッチ記述子を学習する。
論文 参考訳(メタデータ) (2020-01-16T11:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。