論文の概要: High-fidelity Person-centric Subject-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2311.10329v5
- Date: Fri, 3 May 2024 07:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:57:01.982180
- Title: High-fidelity Person-centric Subject-to-Image Synthesis
- Title(参考訳): 高忠実度人物中心画像合成
- Authors: Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin,
- Abstract要約: Face-diffuserは、上記のトレーニングの不均衡と品質の妥協を取り除くための効果的な協調生成パイプラインである。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
新規かつ高能率なノイズ融合(Saliency-Adaptive Noise Fusion)によって達成された,主題・場面の融合段階である。
- 参考スコア(独自算出の注目度): 13.785484396436367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser.
- Abstract(参考訳): 現在の被写体駆動画像生成法は、人中心画像生成において重大な課題に直面している。
理由は、一般的な訓練前の拡散を微調整することで、意味的なシーンと人物の生成を学習するためである。
正確には、現実的な人を生成するためには、事前訓練されたモデルを十分に調整する必要がある。
さらに、十分な微調整を施しても、シーンと人物の同時学習が品質の妥協につながるため、これらの手法は依然として高忠実な人物を生成できない。
本稿では、上記のトレーニングの不均衡と品質の妥協を解消する効果的な協調生成パイプラインであるFace-diffuserを提案する。
具体的には,まずテキスト駆動拡散モデル (TDM) と主観拡張拡散モデル (SDM) の2つの専門的な事前学習拡散モデルを開発し,シーン生成と人物生成を行う。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
第1段と第2段はそれぞれTDMとSDMによって行われる。
SNF(Saliency-Adaptive Noise Fusion)という,新しい高効率なメカニズムによって達成された,テーマ・シーンの融合段階である。
具体的には、分類者なし誘導応答と生成画像の正当性との間には、ロバストなリンクが存在するというキーとなる観察に基づいている。
各時間ステップにおいて、SNFは各モデルの特異な強度を活用し、両方のモデルから予測されたノイズを、正当性を考慮した方法で自動的に空間ブレンディングすることができる。
大規模な実験により、顔拡散器の顕著な有効性と堅牢性が確認された。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - DDAP: Dual-Domain Anti-Personalization against Text-to-Image Diffusion Models [18.938687631109925]
拡散に基づくパーソナライズされたビジュアルコンテンツ生成技術は、大きなブレークスルーを達成した。
しかし、偽のニュースや個人をターゲットとするコンテンツを作るのに誤用された場合、これらの技術は社会的な危害をもたらす可能性がある。
本稿では,新しいDual-Domain Anti-Personalization framework(DDAP)を紹介する。
これら2つの手法を交互に組み合わせることで、DDAPフレームワークを構築し、両方のドメインの強みを効果的に活用する。
論文 参考訳(メタデータ) (2024-07-29T16:11:21Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional
Diffusion Models [13.795706255966259]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。