論文の概要: Multi-Style Facial Sketch Synthesis through Masked Generative Modeling
- arxiv url: http://arxiv.org/abs/2408.12400v1
- Date: Thu, 22 Aug 2024 13:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:43:10.609117
- Title: Multi-Style Facial Sketch Synthesis through Masked Generative Modeling
- Title(参考訳): マスク生成モデルによるマルチスタイル顔スケッチ合成
- Authors: Bowen Sun, Guo Lu, Shibao Zheng,
- Abstract要約: 本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
- 参考スコア(独自算出の注目度): 17.313050611750413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The facial sketch synthesis (FSS) model, capable of generating sketch portraits from given facial photographs, holds profound implications across multiple domains, encompassing cross-modal face recognition, entertainment, art, media, among others. However, the production of high-quality sketches remains a formidable task, primarily due to the challenges and flaws associated with three key factors: (1) the scarcity of artist-drawn data, (2) the constraints imposed by limited style types, and (3) the deficiencies of processing input information in existing models. To address these difficulties, we propose a lightweight end-to-end synthesis model that efficiently converts images to corresponding multi-stylized sketches, obviating the necessity for any supplementary inputs (\eg, 3D geometry). In this study, we overcome the issue of data insufficiency by incorporating semi-supervised learning into the training process. Additionally, we employ a feature extraction module and style embeddings to proficiently steer the generative transformer during the iterative prediction of masked image tokens, thus achieving a continuous stylized output that retains facial features accurately in sketches. The extensive experiments demonstrate that our method consistently outperforms previous algorithms across multiple benchmarks, exhibiting a discernible disparity.
- Abstract(参考訳): 顔写真からスケッチ画像を生成することのできる顔スケッチ合成(FSS)モデルは、クロスモーダルな顔認識、エンターテイメント、アート、メディアなどを含む複数の領域に深く影響している。
しかし, 高品質スケッチの作成は, 1) アーティストが描いたデータの不足, (2) 限られたスタイル型による制約, (3) 既存モデルにおける入力情報の処理不足, の3つの主要な要因に関連する課題や欠点から, 依然として困難な課題である。
これらの問題に対処するために,画像を対応するマルチスティル化されたスケッチに変換する軽量なエンドツーエンド合成モデルを提案し,補足的な入力(3次元幾何)の必要性を排除した。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
さらに,マスク付き画像トークンの反復予測において,特徴抽出モジュールとスタイル埋め込みを用いて生成変換器を巧みに操り,スケッチにおける顔の特徴を正確に保持する連続的なスタイル化出力を実現する。
実験により,提案手法は複数のベンチマークにおいて従来アルゴリズムよりも常に優れており,相違点が明らかであることが示された。
関連論文リスト
- ImFace++: A Sophisticated Nonlinear 3D Morphable Face Model with Implicit Neural Representations [25.016000421755162]
本稿では,暗黙のニューラル表現を持つ高度で連続的な空間を学習するために,ImFace++という新しい3次元顔モデルを提案する。
ImFace++は、まず2つの明示的に歪んだ変形フィールドを構築し、アイデンティティと式に関連する複雑な形状をモデル化する。
さらにテンプレート空間内の精細化変位場が組み込まれ、個々の顔の詳細をきめ細かな学習が可能となる。
論文 参考訳(メタデータ) (2023-12-07T03:53:53Z) - Preface: A Data-driven Volumetric Prior for Few-shot Ultra
High-resolution Face Synthesis [0.0]
NeRFは、複雑な外観や毛髪と皮膚の反射効果を含む、人間の顔の非常に現実的な合成を可能にした。
本稿では,前者のトレーニング分布の一部ではない被験者の超高解像度な新しい視点の合成を可能にする,新しいヒューマン・フェイス・プレファレンスを提案する。
論文 参考訳(メタデータ) (2023-09-28T21:21:44Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Uncertainty-Aware Cross-Modal Transfer Network for Sketch-Based 3D Shape
Retrieval [8.765045867163646]
本稿では,この問題に対処する不確実性を考慮したクロスモーダルトランスファーネットワーク(UACTN)を提案する。
まず、スケッチ機能と不確実性を同時に学習するエンドツーエンドの分類ベースのアプローチを導入する。
そして、3D形状特徴を予め学習したスケッチ埋め込み空間にマッピングして特徴アライメントを行う。
論文 参考訳(メタデータ) (2023-08-11T05:46:52Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。
提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。
本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文 参考訳(メタデータ) (2022-03-18T01:42:59Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。