論文の概要: CO3: Contrasting Concepts Compose Better
- arxiv url: http://arxiv.org/abs/2509.25940v1
- Date: Tue, 30 Sep 2025 08:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.479223
- Title: CO3: Contrasting Concepts Compose Better
- Title(参考訳): CO3: コントラストの概念がより良くなる
- Authors: Debottam Dutta, Jianchong Chen, Rajalaxmi Rajagopalan, Yu-Lin Wei, Romit Roy Choudhury,
- Abstract要約: 猫と犬"のようなよくある失敗例は、ある概念が欠落している、消えている、あるいはぎこちなく他の概念と衝突している画像を生み出すことがある。
本稿では,共同プロンプトの動作が単一概念と強く重なりすぎる領域から切り離す補正的サンプリング戦略を提案する。
結果は,現代の拡散系における脆性セマンティックアライメントの挙動を,軽量な補正ガイダンスにより著しく軽減できることを示す。
- 参考スコア(独自算出の注目度): 11.413455805322371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to improve multi-concept prompt fidelity in text-to-image diffusion models. We begin with common failure cases-prompts like "a cat and a dog" that sometimes yields images where one concept is missing, faint, or colliding awkwardly with another. We hypothesize that this happens when the diffusion model drifts into mixed modes that over-emphasize a single concept it learned strongly during training. Instead of re-training, we introduce a corrective sampling strategy that steers away from regions where the joint prompt behavior overlaps too strongly with any single concept in the prompt. The goal is to steer towards "pure" joint modes where all concepts can coexist with balanced visual presence. We further show that existing multi-concept guidance schemes can operate in unstable weight regimes that amplify imbalance; we characterize favorable regions and adapt sampling to remain within them. Our approach, CO3, is plug-and-play, requires no model tuning, and complements standard classifier-free guidance. Experiments on diverse multi-concept prompts indicate improvements in concept coverage, balance and robustness, with fewer dropped or distorted concepts compared to standard baselines and prior compositional methods. Results suggest that lightweight corrective guidance can substantially mitigate brittle semantic alignment behavior in modern diffusion systems.
- Abstract(参考訳): 本稿では,テキスト・ツー・イメージ拡散モデルにおけるマルチコンセプト・プロンプトの忠実度を改善することを提案する。
私たちは、"猫と犬"のようなよくある失敗事例から始めます。それは、ある概念が欠落している、消えている、または、他の概念とぎこちなく衝突している画像を生成する場合があります。
拡散モデルが混合モードにドリフトし、トレーニング中に強く学んだ1つの概念を過度に強調すると、これは起こるという仮説を立てる。
再学習の代わりに,共同プロンプトの動作が1つの概念と強く重なりすぎる領域から切り離す補正的サンプリング戦略を導入する。
目標は、すべての概念がバランスの取れた視覚的存在と共存できる「純粋な」ジョイントモードを目指すことである。
さらに、既存のマルチコンセプト誘導スキームは、不均衡を増幅する不安定な重み付け方式で動作可能であることを示し、好適な領域を特徴付け、サンプリングを内部に残すように適応させる。
当社のアプローチであるCO3はプラグアンドプレイであり,モデルチューニングを必要とせず,標準分類器フリーガイダンスを補完する。
多様なマルチコンセプトプロンプトの実験は、標準ベースラインや以前の構成方法と比較して、減少あるいは歪んだ概念が少なく、概念カバレッジ、バランス、堅牢性の改善を示している。
結果は,現代の拡散系における脆性セマンティックアライメントの挙動を,軽量な補正ガイダンスにより著しく軽減できることを示す。
関連論文リスト
- Blending Concepts with Text-to-Image Diffusion Models [48.68800153838679]
近年の拡散モデルでは、抽象概念を驚くほど容易に高忠実度画像に変換し、テキスト・画像生成が進歩している。
本研究では,具体的対象から無形概念まで,異なる概念を,ゼロショットの枠組みの下で統一された新しい視覚的実体にブレンドできるかどうかを考察する。
現代の拡散モデルでは、さらなる訓練や微調整をすることなく、創造的なブレンディング能力を示すことが示される。
論文 参考訳(メタデータ) (2025-06-30T08:53:30Z) - ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。
ACEは最先端の概念の除去とロバスト性を実現する。
従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文 参考訳(メタデータ) (2025-04-16T08:16:28Z) - ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation [3.7816957214446103]
ConceptGuardは、シフト埋め込み、コンセプトバインディングプロンプト、メモリ保存正規化を組み合わせた包括的なアプローチである。
本手法は, 定量的, 定性的な解析において, 基礎的手法を連続的に, 著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-13T13:39:24Z) - OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning [10.201633236997104]
大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。
提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
論文 参考訳(メタデータ) (2024-05-29T16:19:37Z) - ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance [90.57708419344007]
新しい概念を学ぶ際に, 概念空間を明示的に規制するために, ** 連続保存損失** を利用するテクニックである **ClassDiffusion** を提示する。
このアプローチは単純ではあるが、ターゲット概念の微調整過程における意味的ドリフトを効果的に防止する。
論文 参考訳(メタデータ) (2024-05-27T17:50:10Z) - Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。
CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。
本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文 参考訳(メタデータ) (2023-11-18T15:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。