論文の概要: FaceStudio: Put Your Face Everywhere in Seconds
- arxiv url: http://arxiv.org/abs/2312.02663v2
- Date: Wed, 6 Dec 2023 12:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 11:51:43.924361
- Title: FaceStudio: Put Your Face Everywhere in Seconds
- Title(参考訳): FaceStudio:どんな顔でも秒速で撮れる
- Authors: Yuxuan Yan, Chi Zhang, Rui Wang, Yichao Zhou, Gege Zhang, Pei Cheng,
Gang Yu, Bin Fu
- Abstract要約: アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.381791316305332
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This study investigates identity-preserving image synthesis, an intriguing
task in image generation that seeks to maintain a subject's identity while
adding a personalized, stylistic touch. Traditional methods, such as Textual
Inversion and DreamBooth, have made strides in custom image creation, but they
come with significant drawbacks. These include the need for extensive resources
and time for fine-tuning, as well as the requirement for multiple reference
images. To overcome these challenges, our research introduces a novel approach
to identity-preserving synthesis, with a particular focus on human images. Our
model leverages a direct feed-forward mechanism, circumventing the need for
intensive fine-tuning, thereby facilitating quick and efficient image
generation. Central to our innovation is a hybrid guidance framework, which
combines stylized images, facial images, and textual prompts to guide the image
generation process. This unique combination enables our model to produce a
variety of applications, such as artistic portraits and identity-blended
images. Our experimental results, including both qualitative and quantitative
evaluations, demonstrate the superiority of our method over existing baseline
models and previous works, particularly in its remarkable efficiency and
ability to preserve the subject's identity with high fidelity.
- Abstract(参考訳): 本研究では,人物のアイデンティティを維持しつつ,パーソナライズされたスタイリスティックなタッチを付加した画像生成における興味深い課題であるアイデンティティ保存画像合成について検討する。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れているが、大きな欠点がある。
これには、詳細なリソースと微調整の時間の必要性、複数の参照画像の要件が含まれる。
これらの課題を克服するため,本研究では,人間の画像に焦点をあてたアイデンティティ保存合成への新しいアプローチを提案する。
本モデルでは,直接フィードフォワード機構を活用し,集中的な微調整の必要性を回避し,迅速かつ効率的な画像生成を実現する。
私たちのイノベーションの中心は、スタイリッシュな画像、顔画像、テキストによるプロンプトを組み合わせて、画像生成プロセスを導く、ハイブリッドなガイダンスフレームワークです。
このユニークな組み合わせにより、われわれのモデルは、芸術的肖像画やアイデンティティブロード画像など、様々な応用を実現できる。
定性評価と定量的評価の両方を含む実験結果は,既存のベースラインモデルと過去の研究,特に高い忠実度で被験者のアイデンティティを維持できる顕著な効率と能力において,本手法の優位性を示すものである。
関連論文リスト
- Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Few-shots Portrait Generation with Style Enhancement and Identity
Preservation [3.6937810031393123]
StyleIdentityGANモデルは、生成された肖像画のアイデンティティと芸術性を同時に確保することができる。
スタイル強化モジュールは、生成した仮想顔画像の芸術性を改善するために、デカップリングと転送の芸術的スタイルの特徴に焦点を当てている。
アートやアイデンティティ効果の最先端手法よりもStyleIdentityGANの方が優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T10:02:12Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Quality Guided Sketch-to-Photo Image Synthesis [12.617078020344618]
ヘアカラーやセックスなどの特徴を持つ複数の合成画像に1つのスケッチを合成する生成逆ネットワークを提案する。
本手法は,合成画像の同一性を損なうことなく,複数の属性割り当てをジェネレータに組み込むことにより,合成画像の視覚的魅力を向上させることを目的としている。
論文 参考訳(メタデータ) (2020-04-20T16:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。