Fugu-MT 論文翻訳(概要): PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization

論文の概要: PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization

arxiv url: http://arxiv.org/abs/2312.06354v1
Date: Mon, 11 Dec 2023 13:03:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 15:44:10.930312
Title: PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization
Title（参考訳）: PortraitBooth: ファーストアイデンティティ保存パーソナライゼーションのためのVersatile Portrait Model
Authors: Xu Peng, Junwei Zhu, Boyuan Jiang, Ying Tai, Donghao Luo, Jiangning Zhang, Wei Lin, Taisong Jin, Chengjie Wang, Rongrong Ji
Abstract要約: PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。 PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
参考スコア（独自算出の注目度）: 92.90392834835751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in personalized image generation using diffusion models have been noteworthy. However, existing methods suffer from inefficiencies due to the requirement for subject-specific fine-tuning. This computationally intensive process hinders efficient deployment, limiting practical usability. Moreover, these methods often grapple with identity distortion and limited expression diversity. In light of these challenges, we propose PortraitBooth, an innovative approach designed for high efficiency, robust identity preservation, and expression-editable text-to-image generation, without the need for fine-tuning. PortraitBooth leverages subject embeddings from a face recognition model for personalized image generation without fine-tuning. It eliminates computational overhead and mitigates identity distortion. The introduced dynamic identity preservation strategy further ensures close resemblance to the original image identity. Moreover, PortraitBooth incorporates emotion-aware cross-attention control for diverse facial expressions in generated images, supporting text-driven expression editing. Its scalability enables efficient and high-quality image creation, including multi-subject generation. Extensive results demonstrate superior performance over other state-of-the-art methods in both single and multiple image generation scenarios.
Abstract（参考訳）: 拡散モデルを用いたパーソナライズ画像生成の最近の進歩は注目に値する。しかし,既存の手法では,被写体固有の微調整が要求されるため,非効率に苦しむ。この計算集約的なプロセスは効率的なデプロイメントを妨げ、実用的なユーザビリティを制限する。さらに、これらの手法はアイデンティティの歪みや表現の多様性が制限されることが多い。そこで我々は,これらの課題に照らし合わせて,高効率,堅牢なアイデンティティ保存,表現編集可能なテキストから画像への生成を念頭において,微調整を必要とせず,革新的なアプローチであるportalboothを提案する。 PortraitBoothは、顔認識モデルからの被写体埋め込みを利用して、微調整なしでパーソナライズされた画像を生成する。計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。導入された動的アイデンティティ保存戦略により、元のイメージアイデンティティと密接な類似性が保証される。さらに、PortraitBoothは、生成した画像の多様な表情に対する感情認識のクロスアテンション制御を導入し、テキスト駆動型表現編集をサポートする。そのスケーラビリティは、マルチオブジェクト生成を含む効率的で高品質な画像生成を可能にする。複数の画像生成シナリオにおいて、他の最先端手法よりも優れた性能を示す。

関連論文リスト

A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。 C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文参考訳（メタデータ） (2025-06-13T00:15:54Z)
ID-Booth: Identity-consistent Face Generation with Diffusion Models [10.042492056152232]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文参考訳（メタデータ） (2025-04-10T02:20:18Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文参考訳（メタデータ） (2024-03-20T12:13:04Z)
Personalized Face Inpainting with Diffusion Models by Parallel Visual Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文参考訳（メタデータ） (2023-12-06T15:39:03Z)
FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。 Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-05T11:02:45Z)
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-11T19:59:43Z)
DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文参考訳（メタデータ） (2023-07-01T11:01:17Z)
DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。 DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文参考訳（メタデータ） (2023-05-05T09:08:25Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。