Fugu-MT 論文翻訳(概要): PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

論文の概要: PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2309.05793v1
Date: Mon, 11 Sep 2023 19:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 15:18:46.877823
Title: PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models
Title（参考訳）: PhotoVerse: テキストと画像の拡散モデルによるチューニング不要な画像カスタマイズ
Authors: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
Abstract要約: PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
参考スコア（独自算出の注目度）: 19.519789922033034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times, large storage requirements, the necessity for multiple input images per identity, and limitations in preserving identity and editability. To address these obstacles, we present PhotoVerse, an innovative methodology that incorporates a dual-branch conditioning mechanism in both text and image domains, providing effective control over the image generation process. Furthermore, we introduce facial identity loss as a novel component to enhance the preservation of identity during training. Remarkably, our proposed PhotoVerse eliminates the need for test time tuning and relies solely on a single facial photo of the target identity, significantly reducing the resource cost associated with image generation. After a single training phase, our approach enables generating high-quality images within only a few seconds. Moreover, our method can produce diverse images that encompass various scenes and styles. The extensive evaluation demonstrates the superior performance of our approach, which achieves the dual objectives of preserving identity and facilitating editability. Project page: https://photoverse2d.github.io/
Abstract（参考訳）: パーソナライズされたテキストから画像への生成は強力で後続のツールとして登場し、ユーザーは独自の概念やプロンプトに基づいてカスタマイズされた画像を作成することができる。しかし、パーソナライズへの既存のアプローチは、長いチューニング時間、大きなストレージ要件、アイデンティティごとの複数の入力イメージの必要性、アイデンティティと編集性を維持するための制限など、複数の課題に直面している。そこで本研究では,テキスト領域と画像領域の両方にデュアルブランチコンディショニング機構を取り入れ,画像生成過程を効果的に制御する斬新な手法であるphotoverseを提案する。さらに、トレーニング中のアイデンティティの保存を高めるために、新しい要素として顔認証の喪失を導入する。注目すべきは、提案したPhotoVerseは、テストタイムチューニングの必要性を排除し、ターゲットアイデンティティの単一の顔写真のみに依存し、画像生成に関連するリソースコストを大幅に削減する。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。さらに,本手法は様々なシーンやスタイルを含む多様な画像を生成することができる。この評価は,アイデンティティの保存と編集性の向上という2つの目的を達成するアプローチの優れた性能を示すものである。プロジェクトページ: https://photoverse2d.github.io/

関連論文リスト

Personalize Anything for Free with Diffusion Transformer [20.385520869825413]
最近のトレーニングフリーアプローチはアイデンティティの保存、適用性、拡散トランスフォーマ(DiT)との互換性に苦慮している既往のDiTの可能性を明らかにし,デノベーショントークンを参照対象のトークンに置き換えることで,ゼロショット対象の再構成を実現する。本報告では,DiTにおける画像のパーソナライズを実現するトレーニングフリーフレームワークである textbfPersonalize Anything を提案する。1)早期注入による被写体一貫性を強制し,後期正規化による柔軟性を高めるタイムステップ適応トークン置換,2) 構造多様性を高めるためのパッチ摂動戦略。
論文参考訳（メタデータ） (2025-03-16T17:51:16Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文参考訳（メタデータ） (2024-07-13T05:28:45Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文参考訳（メタデータ） (2024-04-05T17:45:22Z)
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文参考訳（メタデータ） (2024-03-20T12:13:04Z)
PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。 PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文参考訳（メタデータ） (2023-12-11T13:03:29Z)
FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。 Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-05T11:02:45Z)
DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文参考訳（メタデータ） (2023-07-01T11:01:17Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。