論文の概要: AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization
- arxiv url: http://arxiv.org/abs/2405.17965v2
- Date: Thu, 16 Oct 2025 06:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.413772
- Title: AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization
- Title(参考訳): AttenCraft: テキストと画像のカスタマイズのための複数概念の注意誘導型アンタングル
- Authors: Junjie Shentu, Matthew Watson, Noura Al Moubayed,
- Abstract要約: 本研究では,マルチコンセプト・ディコンタングルメントのための注意型手法であるAttenCraftを提案する。
注意点に基づく適応アルゴリズムを導入し,異なる概念に対するサンプリング比を推定する。
我々のモデルは,最新画像の忠実度と,ベースラインモデルに匹敵する即時忠実度という2つの問題を効果的に緩和する。
- 参考スコア(独自算出の注目度): 3.5066393042242123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) customization empowers users to adapt the T2I diffusion model to new concepts absent in the pre-training dataset. On this basis, capturing multiple new concepts from a single image has emerged as a new task, allowing the model to learn multiple concepts simultaneously or discard unwanted concepts. However, multiple-concept disentanglement remains a key challenge. Existing disentanglement models often exhibit two main issues: feature fusion and asynchronous learning across different concepts. To address these issues, we propose AttenCraft, an attention-based method for multiple-concept disentanglement. Our method uses attention maps to generate accurate masks for each concept in a single initialization step, aiding in concept disentanglement without requiring mask preparation from humans or specialized models. Moreover, we introduce an adaptive algorithm based on attention scores to estimate sampling ratios for different concepts, promoting balanced feature acquisition and synchronized learning. AttenCraft also introduces a feature-retaining training framework that employs various loss functions to enhance feature recognition and prevent fusion. Extensive experiments show that our model effectively mitigates these two issues, achieving state-of-the-art image fidelity and comparable prompt fidelity to baseline models.
- Abstract(参考訳): Text-to-image(T2I)のカスタマイズにより、事前トレーニングデータセットに存在しない新しい概念にT2I拡散モデルを適用することができる。
このベースで、1つのイメージから複数の新しい概念をキャプチャする新しいタスクが登場し、モデルが複数の概念を同時に学習したり、望ましくない概念を捨てたりすることが可能になった。
しかし、複数の概念の絡み合いは依然として重要な課題である。
既存のアンタングルメントモデルは、機能融合と異なる概念をまたいだ非同期学習の2つの主要な問題を示すことが多い。
これらの問題に対処するため,マルチコンセプトディスタングルのための注意型手法であるAttenCraftを提案する。
提案手法では,1つの初期化ステップで各概念の正確なマスクを生成するためにアテンションマップを用いて,人間や専門モデルによるマスク作成を必要とせず,概念のゆがみを支援する。
さらに、注意点に基づく適応アルゴリズムを導入し、異なる概念に対するサンプリング比率を推定し、バランスの取れた特徴獲得と同期学習を促進する。
AttenCraftはまた、さまざまなロス関数を使用して機能認識を強化し、融合を防ぐ機能保持トレーニングフレームワークも導入している。
広汎な実験により,我々のモデルはこれらの2つの問題を効果的に軽減し,最新画像の忠実度とベースラインモデルに匹敵する即時忠実度を実現した。
関連論文リスト
- FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [26.585985828583304]
FlipConceptは、複数のパーソナライズされた概念をシームレスに単一のイメージに統合する新しいアプローチである。
我々は,概念リークを最小限に抑えるために,ガイド付き外観注意,マスク誘導ノイズ混合,背景希釈を導入する。
チューニングを必要とせず、本手法は、単一および複数のパーソナライズされた概念推論において、既存のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-21T04:37:18Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。