論文の概要: One-shot Face Sketch Synthesis in the Wild via Generative Diffusion Prior and Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.15312v1
- Date: Wed, 18 Jun 2025 09:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.623003
- Title: One-shot Face Sketch Synthesis in the Wild via Generative Diffusion Prior and Instruction Tuning
- Title(参考訳): 生成拡散前と指示調整による野生におけるワンショット顔スケッチ合成
- Authors: Han Wu, Junyao Li, Kangbo Zhao, Sen Zhang, Yukai Shi, Liang Lin,
- Abstract要約: 顔スケッチ合成は、顔写真をスケッチに変換する技術である。
既存の顔スケッチ合成研究は主に、既存のデータセットから多数のフォトスケッチサンプルペアを使用したトレーニングに頼っている。
拡散モデルに基づくワンショット顔スケッチ合成法を提案する。
- 参考スコア(独自算出の注目度): 52.0161291920299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face sketch synthesis is a technique aimed at converting face photos into sketches. Existing face sketch synthesis research mainly relies on training with numerous photo-sketch sample pairs from existing datasets. However, these large-scale discriminative learning methods will have to face problems such as data scarcity and high human labor costs. Once the training data becomes scarce, their generative performance significantly degrades. In this paper, we propose a one-shot face sketch synthesis method based on diffusion models. We optimize text instructions on a diffusion model using face photo-sketch image pairs. Then, the instructions derived through gradient-based optimization are used for inference. To simulate real-world scenarios more accurately and evaluate method effectiveness more comprehensively, we introduce a new benchmark named One-shot Face Sketch Dataset (OS-Sketch). The benchmark consists of 400 pairs of face photo-sketch images, including sketches with different styles and photos with different backgrounds, ages, sexes, expressions, illumination, etc. For a solid out-of-distribution evaluation, we select only one pair of images for training at each time, with the rest used for inference. Extensive experiments demonstrate that the proposed method can convert various photos into realistic and highly consistent sketches in a one-shot context. Compared to other methods, our approach offers greater convenience and broader applicability. The dataset will be available at: https://github.com/HanWu3125/OS-Sketch
- Abstract(参考訳): 顔スケッチ合成は、顔写真をスケッチに変換する技術である。
既存の顔スケッチ合成研究は主に、既存のデータセットから多数のフォトスケッチサンプルペアを使用したトレーニングに頼っている。
しかし、これらの大規模差別学習手法は、データ不足や高い人的コストといった問題に直面しなければならない。
トレーニングデータが不足すると、生成性能は著しく低下する。
本稿では拡散モデルに基づくワンショット顔スケッチ合成法を提案する。
顔写真とスケッチ画像のペアを用いた拡散モデルのテキスト命令を最適化する。
次に、勾配に基づく最適化によって導出された命令を推論に使用する。
実世界のシナリオをより正確にシミュレートし,メソッドの有効性をより包括的に評価するために,One-shot Face Sketch Dataset (OS-Sketch) という新しいベンチマークを導入する。
ベンチマークは400対の顔写真スケッチ画像で構成されており、背景、年齢、性別、表情、照明など、さまざまなスタイルのスケッチや写真が含まれている。
配当評価は,各時間に1対の訓練用画像のみを選択し,残りの画像は推論に使用する。
広範にわたる実験により, 提案手法により, 複数枚の写真からリアルかつ一貫したスケッチをワンショットで作成できることが実証された。
他の方法と比較して、私たちのアプローチはより利便性とより広い適用性を提供します。
データセットは以下の通りである。 https://github.com/HanWu3125/OS-Sketch
関連論文リスト
- From Easy to Hard: Building a Shortcut for Differentially Private Image Synthesis [14.93795597224185]
差分プライベート(DP)画像合成は、センシティブなデータセットから合成画像を生成することを目的としている。
本稿では,拡散モデルを用いて合成画像を容易に生成する2段階のDP画像合成フレームワークを提案する。
我々は,4つの画像データセットの平均値において,合成画像の忠実度と有用度が,最先端の手法よりも33.1%,2.1%向上していることを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-02T06:30:55Z) - Stylized Face Sketch Extraction via Generative Prior with Limited Data [6.727433982111717]
StyleSketchは、顔画像から高解像度のスタイリングスケッチを抽出する方法である。
事前訓練されたStyleGANの深い特徴の豊富なセマンティクスを用いて、16対の顔とそれに対応するスケッチイメージでスケッチジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2024-03-17T16:25:25Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Text-Guided Scene Sketch-to-Photo Synthesis [5.431298869139175]
テキストガイダンスを用いたシーンレベルのスケッチ・ツー・フォト合成手法を提案する。
モデルのトレーニングには,写真の集合から自己教師付き学習を用いる。
実験により,カラー画像から抽出されていないオリジナルスケッチ画像を視覚的品質の高い写真に変換することを確認した。
論文 参考訳(メタデータ) (2023-02-14T08:13:36Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Face sketch to photo translation using generative adversarial networks [1.0312968200748118]
我々は、訓練済みの顔画像生成モデルを用いて、高品質な自然顔写真を合成する。
入力スケッチから抽出した顔の特徴を、顔生成モデルの潜在空間のベクトルにマッピングするネットワークを訓練する。
提案モデルでは,SSIM指数で0.655,97.59%のランク-1顔認識率が得られた。
論文 参考訳(メタデータ) (2021-10-23T20:01:20Z) - DeepFacePencil: Creating Face Images from Freehand Sketches [77.00929179469559]
既存の画像から画像への変換には、大規模なスケッチと画像のデータセットが必要である。
本稿では,手描きスケッチから写真リアルな顔画像を生成するための効果的なツールであるDeepFacePencilを提案する。
論文 参考訳(メタデータ) (2020-08-31T03:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。