論文の概要: FaR: Enhancing Multi-Concept Text-to-Image Diffusion via Concept Fusion and Localized Refinement
- arxiv url: http://arxiv.org/abs/2504.03292v1
- Date: Fri, 04 Apr 2025 09:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:12.047653
- Title: FaR: Enhancing Multi-Concept Text-to-Image Diffusion via Concept Fusion and Localized Refinement
- Title(参考訳): FaR:概念融合と局所再構成による多概念テキスト・画像拡散の促進
- Authors: Gia-Nghia Tran, Quang-Huy Che, Trong-Tai Dam Vu, Bich-Nga Pham, Vinh-Tiep Nguyen, Trung-Nghia Le, Minh-Triet Tran,
- Abstract要約: 現在の方法は、少数のサンプルで訓練するときに、しばしば過度に適合する。
FaRは、コンセプトフュージョン技術とローカライズされたリファインメント損失関数の2つの主要な貢献を通じて、これらの課題に取り組む新しいアプローチである。
実証的な結果から、FaRはフォトリアリズムを維持しながら過剰な適合や属性の漏洩を防ぐだけでなく、他の最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 9.25127189426397
- License:
- Abstract: Generating multiple new concepts remains a challenging problem in the text-to-image task. Current methods often overfit when trained on a small number of samples and struggle with attribute leakage, particularly for class-similar subjects (e.g., two specific dogs). In this paper, we introduce Fuse-and-Refine (FaR), a novel approach that tackles these challenges through two key contributions: Concept Fusion technique and Localized Refinement loss function. Concept Fusion systematically augments the training data by separating reference subjects from backgrounds and recombining them into composite images to increase diversity. This augmentation technique tackles the overfitting problem by mitigating the narrow distribution of the limited training samples. In addition, Localized Refinement loss function is introduced to preserve subject representative attributes by aligning each concept's attention map to its correct region. This approach effectively prevents attribute leakage by ensuring that the diffusion model distinguishes similar subjects without mixing their attention maps during the denoising process. By fine-tuning specific modules at the same time, FaR balances the learning of new concepts with the retention of previously learned knowledge. Empirical results show that FaR not only prevents overfitting and attribute leakage while maintaining photorealism, but also outperforms other state-of-the-art methods.
- Abstract(参考訳): 複数の新しい概念を生成することは、テキストから画像へのタスクにおいて難しい問題である。
現在の方法は、少数のサンプルで訓練し、属性リークに苦しむときに、特に同類(例えば2匹の特定の犬)に対して、しばしば過度に適合する。
本稿では,Fuse-and-Refine(FaR)という,これらの課題に対処する新しいアプローチを紹介する。
コンセプトフュージョンは、背景から参照対象を分離し、それらを複合イメージに再結合することで、多様性を高めることで、トレーニングデータを体系的に強化する。
この拡張手法は,限られたトレーニングサンプルの分布を狭くすることで過度に適合する問題に対処する。
さらに,各概念の注目マップを適切な領域に整列させることにより,主観的属性を保存するために,局所的リファインメント損失関数を導入する。
この手法は, 拡散モデルが注目マップを混在させることなく類似した対象を識別することを保証することにより, 属性の漏洩を効果的に防止する。
特定のモジュールを同時に微調整することで、FaRは学習した知識の保持と新しい概念の学習のバランスをとる。
実証的な結果から、FaRはフォトリアリズムを維持しながら過剰な適合や属性の漏洩を防ぐだけでなく、他の最先端手法よりも優れていることが示された。
関連論文リスト
- Improving Multi-Subject Consistency in Open-Domain Image Generation with Isolation and Reposition Attention [25.69140705877128]
IR拡散(IR-Diffusion)と呼ばれる分離・再配置注意を伴う学習自由拡散モデルを提案する。
分離注意は、対象画像内の複数の被写体が互いに参照しないことを保証し、被写体収束を効果的に排除する。
再配置注意(Reposition Attention)とは、参照画像とターゲット画像の両方の被写体を、画像内の同じ位置にスケーリングおよび再配置することである。
論文 参考訳(メタデータ) (2024-11-28T16:50:30Z) - Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文 参考訳(メタデータ) (2024-11-08T12:58:48Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - A-STAR: Test-time Attention Segregation and Retention for Text-to-image
Synthesis [24.159726798004748]
テキストから画像への生成モデルに対する2つのテストタイムアテンションに基づく損失関数を提案する。
まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の交差注意重なりを減少させる。
第2に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおいて、すべての概念に対する横断的な情報を保持するよう、明示的に強制する。
論文 参考訳(メタデータ) (2023-06-26T09:34:10Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。