Fugu-MT 論文翻訳(概要): FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation

論文の概要: FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2502.15203v1
Date: Fri, 21 Feb 2025 04:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.068867
Title: FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation
Title（参考訳）: FlipConcept: テキスト・画像生成のためのチューニング不要なマルチコンセプトパーソナライズ
Authors: Young Beom Woo, Sun Eung Kim,
Abstract要約: 複数のパーソナライズされた概念を単一のイメージに統合する手法は、テキスト・ツー・イメージ(T2I)生成の分野で大きな注目を集めている。既存の手法では、非個人化領域の歪みにより、複数のオブジェクトを持つ複雑なシーンのパフォーマンス劣化を経験する。 FlipConceptは、複数のパーソナライズされた概念を、追加のチューニングを必要とせず、シームレスに単一のイメージに統合する新しいアプローチである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, methods that integrate multiple personalized concepts into a single image have garnered significant attention in the field of text-to-image (T2I) generation. However, existing methods experience performance degradation in complex scenes with multiple objects due to distortions in non-personalized regions. To address this issue, we propose FlipConcept, a novel approach that seamlessly integrates multiple personalized concepts into a single image without requiring additional tuning. We introduce guided appearance attention to accurately mimic the appearance of a personalized concept as intended. Additionally, we introduce mask-guided noise mixing to protect non-personalized regions during editing. Lastly, we apply background dilution to minimize attribute leakage, which is the undesired blending of personalized concept attributes with other objects in the image. In our experiments, we demonstrate that the proposed method, despite not requiring tuning, outperforms existing models in both single and multiple personalized concept inference.
Abstract（参考訳）: 近年,複数のパーソナライズされた概念をひとつのイメージに統合する手法が,テキスト・ツー・イメージ(T2I)生成分野において注目されている。しかし、既存の手法では、非個人化領域の歪みにより複数のオブジェクトを持つ複雑なシーンのパフォーマンス劣化を経験する。この問題に対処するためにFlipConceptを提案する。FlipConceptは、複数のパーソナライズされた概念を、追加のチューニングを必要とせずにシームレスに単一のイメージに統合する新しいアプローチである。我々は、意図したパーソナライズされた概念の外観を正確に模倣するために、ガイド付き外観注意を導入する。さらに,編集中の非個人化領域を保護するためにマスク誘導ノイズミキシングを導入する。最後に,画像中の他のオブジェクトとパーソナライズされた概念属性を混在させ,属性リークを最小限に抑えるために背景希釈を適用した。実験では,提案手法はチューニングを必要としないが,単一および複数パーソナライズされた概念推論において既存モデルよりも優れていることを示した。

関連論文リスト

AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文参考訳（メタデータ） (2024-05-22T17:53:38Z)
Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文参考訳（メタデータ） (2024-04-05T06:41:27Z)
Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-03-19T11:48:35Z)
OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。 OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。 civitai.comのLoRAモデルは直接利用することができる。
論文参考訳（メタデータ） (2024-03-16T17:30:15Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。