論文の概要: Dense-Face: Personalized Face Generation Model via Dense Annotation Prediction
- arxiv url: http://arxiv.org/abs/2412.18149v1
- Date: Tue, 24 Dec 2024 04:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:04.559461
- Title: Dense-Face: Personalized Face Generation Model via Dense Annotation Prediction
- Title(参考訳): Dense-Face:Dense Annotation Predictionによるパーソナライズされた顔生成モデル
- Authors: Xiao Guo, Manh Tran, Jiaxin Cheng, Xiaoming Liu,
- Abstract要約: 本稿では,T2Iのパーソナライズ拡散モデルであるDense-Faceを提案する。
本手法は,画像テキストアライメント,アイデンティティ保存,ポーズ制御において,最先端ないし競争的な生成性能を実現する。
- 参考スコア(独自算出の注目度): 12.938413724185388
- License:
- Abstract: The text-to-image (T2I) personalization diffusion model can generate images of the novel concept based on the user input text caption. However, existing T2I personalized methods either require test-time fine-tuning or fail to generate images that align well with the given text caption. In this work, we propose a new T2I personalization diffusion model, Dense-Face, which can generate face images with a consistent identity as the given reference subject and align well with the text caption. Specifically, we introduce a pose-controllable adapter for the high-fidelity image generation while maintaining the text-based editing ability of the pre-trained stable diffusion (SD). Additionally, we use internal features of the SD UNet to predict dense face annotations, enabling the proposed method to gain domain knowledge in face generation. Empirically, our method achieves state-of-the-art or competitive generation performance in image-text alignment, identity preservation, and pose control.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)パーソナライズ拡散モデルは、ユーザ入力テキストキャプションに基づいて、新しい概念の画像を生成することができる。
しかし、既存のT2Iパーソナライズされたメソッドは、テストタイムの微調整を必要とするか、与えられたテキストキャプションとうまく一致した画像を生成するのに失敗する。
本研究では,T2Iの個人化拡散モデルであるDense-Faceを提案する。
具体的には、トレーニング済み安定拡散(SD)のテキストベースの編集能力を維持しつつ、高忠実度画像生成のためのポーズ制御可能なアダプタを提案する。
さらに、SD UNetの内部機能を用いて、高密度な顔アノテーションを予測し、提案手法により顔生成におけるドメイン知識を得られるようにする。
提案手法は,画像テキストアライメント,アイデンティティ保存,ポーズ制御において,最先端ないし競争力のある生成性能を実現する。
関連論文リスト
- PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control [24.569528214869113]
StyleGANモデルは、前もってリッチな顔を学習し、潜時操作による微粒化属性編集へのスムーズな制御を可能にする。
この作業では、StyleGANsの逆向きの$mathcalW+$スペースを使用して、T2Iモデルを条件付けする。
顔のパーソナライゼーションと微粒化属性編集の手法を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-24T07:10:25Z) - MasterWeaver: Taming Editability and Face Identity for Personalized Text-to-Image Generation [59.13765130528232]
MasterWeaverは、忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された、テスト時のチューニング不要な手法である。
具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。
同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。
論文 参考訳(メタデータ) (2024-05-09T14:42:16Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Face2Diffusion for Fast and Editable Face Personalization [33.65484538815936]
顔のパーソナライズのためのFace2Diffusion(F2D)を提案する。
F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を削除することで、オーバーフィッティングの問題を防ぐことである。
F2Dは以下の3つの新しい構成要素から構成される。
論文 参考訳(メタデータ) (2024-03-08T06:46:01Z) - Discriminative Probing and Tuning for Text-to-Image Generation [129.39674951747412]
テキスト・ツー・イメージ生成(T2I)は、しばしば、生成された画像における関係の混乱のようなテキスト・イメージの誤調整問題に直面している。
本稿では,T2Iモデルの識別能力を向上し,より正確なテキストと画像のアライメントを実現することを提案する。
本稿では,T2Iモデル上に構築された識別アダプターを用いて,2つの代表課題における識別能力を探索し,テキスト画像のアライメントを改善するために識別微調整を利用する。
論文 参考訳(メタデータ) (2024-03-07T08:37:33Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。