Fugu-MT 論文翻訳(概要): Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models

論文の概要: Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models

arxiv url: http://arxiv.org/abs/2404.04243v3
Date: Mon, 28 Oct 2024 08:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.722125
Title: Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models
Title（参考訳）: テキスト・画像モデルの多目的パーソナライズのためのアイデンティティ・デカップリング
Authors: Sangwon Jang, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang,
Abstract要約: マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
参考スコア（独自算出の注目度）: 66.05234562835136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image diffusion models have shown remarkable success in generating personalized subjects based on a few reference images. However, current methods often fail when generating multiple subjects simultaneously, resulting in mixed identities with combined attributes from different subjects. In this work, we present MuDI, a novel framework that enables multi-subject personalization by effectively decoupling identities from multiple subjects. Our main idea is to utilize segmented subjects generated by a foundation model for segmentation (Segment Anything) for both training and inference, as a form of data augmentation for training and initialization for the generation process. Moreover, we further introduce a new metric to better evaluate the performance of our method on multi-subject personalization. Experimental results show that our MuDI can produce high-quality personalized images without identity mixing, even for highly similar subjects as shown in Figure 1. Specifically, in human evaluation, MuDI obtains twice the success rate for personalizing multiple subjects without identity mixing over existing baselines and is preferred over 70% against the strongest baseline.
Abstract（参考訳）: テキスト・ツー・イメージ拡散モデルでは、いくつかの参照画像に基づいてパーソナライズされた被写体を生成することに顕著な成功を収めている。しかし、複数の被写体を同時に生成する際には、現在の手法が失敗することが多く、異なる被写体からの複合属性が混在する。本研究では,複数の被験者のアイデンティティを効果的に分離することで,マルチオブジェクトのパーソナライズを可能にする新しいフレームワークであるMuDIを提案する。本研究の目的は,学習と推論の両方にセグメンテーション(セグメンテーション)の基礎モデルによって生成されたセグメンテーションを,生成プロセスのトレーニングと初期化のためのデータ拡張の一形態として活用することである。さらに,本手法の多目的パーソナライゼーションにおける性能を評価するための新しい指標を提案する。実験結果から,図1に示すような非常に類似した被験者であっても,同一性混合を伴わない高品質なパーソナライズ画像が作成可能であることが示された。特に人的評価において、MuDIは、既存のベースラインに対してアイデンティティを混合せずに複数の被験者をパーソナライズする成功率の2倍を取得し、最強ベースラインに対して70%以上が好ましい。

関連論文リスト

PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards [86.1965460124838]
スケーラブルなマルチオブジェクトデータ生成パイプラインを提案する。まず、単一オブジェクトのパーソナライズモデルを用いて、マルチイメージおよびマルチオブジェクトシナリオの知識を得る。主観的整合性とテキスト制御性を両立させるため,ペアワイズ・サブジェスト・コンシスタンス・リワードを設計する。
論文参考訳（メタデータ） (2025-12-01T03:25:49Z)
WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。マルチパーソンシナリオに適した大規模ペアデータセットを開発する。本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:54Z)
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing [14.88610127301938]
MUSARは、シングルオブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチオブジェクトのカスタマイズを実現するためのフレームワークである。シングルオブジェクト画像からディップチッチトレーニングペアを構築し、マルチオブジェクト学習を容易にするとともに、ディップチッチ構築によって導入された分布バイアスを積極的に補正する。実験によると、MUSARは既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-05-05T17:50:24Z)
Single Image Iterative Subject-driven Generation and Editing [40.285860652338506]
SISOは、トレーニングなしで単一の画像から画像の生成と編集をパーソナライズするための、トレーニング不要なアプローチである。 SISOは、与えられた被写体画像との類似性の喪失に基づいて、画像を反復的に生成し、モデルを最適化する。画像品質, 被写体忠実度, 背景保存における既存手法の大幅な改善を示す。
論文参考訳（メタデータ） (2025-03-20T10:45:04Z)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文参考訳（メタデータ） (2024-03-20T12:13:04Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。 Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-05T11:02:45Z)
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-11T19:59:43Z)
Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文参考訳（メタデータ） (2023-05-30T18:00:06Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。