論文の概要: Blending Concepts with Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.23630v1
- Date: Mon, 30 Jun 2025 08:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.984096
- Title: Blending Concepts with Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルによるブレンディング概念
- Authors: Lorenzo Olearo, Giorgio Longari, Alessandro Raganato, Rafael Peñaloza, Simone Melzi,
- Abstract要約: 近年の拡散モデルでは、抽象概念を驚くほど容易に高忠実度画像に変換し、テキスト・画像生成が進歩している。
本研究では,具体的対象から無形概念まで,異なる概念を,ゼロショットの枠組みの下で統一された新しい視覚的実体にブレンドできるかどうかを考察する。
現代の拡散モデルでは、さらなる訓練や微調整をすることなく、創造的なブレンディング能力を示すことが示される。
- 参考スコア(独自算出の注目度): 48.68800153838679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have dramatically advanced text-to-image generation in recent years, translating abstract concepts into high-fidelity images with remarkable ease. In this work, we examine whether they can also blend distinct concepts, ranging from concrete objects to intangible ideas, into coherent new visual entities under a zero-shot framework. Specifically, concept blending merges the key attributes of multiple concepts (expressed as textual prompts) into a single, novel image that captures the essence of each concept. We investigate four blending methods, each exploiting different aspects of the diffusion pipeline (e.g., prompt scheduling, embedding interpolation, or layer-wise conditioning). Through systematic experimentation across diverse concept categories, such as merging concrete concepts, synthesizing compound words, transferring artistic styles, and blending architectural landmarks, we show that modern diffusion models indeed exhibit creative blending capabilities without further training or fine-tuning. Our extensive user study, involving 100 participants, reveals that no single approach dominates in all scenarios: each blending technique excels under certain conditions, with factors like prompt ordering, conceptual distance, and random seed affecting the outcome. These findings highlight the remarkable compositional potential of diffusion models while exposing their sensitivity to seemingly minor input variations.
- Abstract(参考訳): 拡散モデルは近年,抽象概念を驚くほど容易な高忠実度画像に変換し,テキスト・画像生成を劇的に進歩させてきた。
本研究では,具体的対象から無形概念まで,異なる概念を,ゼロショットの枠組みの下で統一された新しい視覚的実体にブレンドできるかどうかを考察する。
具体的には、複数の概念の重要な属性(テキストプロンプトとして表現される)を、各概念の本質を捉えた単一の新しいイメージにマージする。
拡散パイプラインの異なる側面(例えば、プロンプトスケジューリング、埋め込み補間、層ワイドコンディショニング)を利用する4つのブレンディング手法について検討する。
具体的概念の融合,複合語合成,芸術様式の移転,建築的ランドマークのブレンドなど,多種多様な概念カテゴリーの体系的な実験を通じて,現代の拡散モデルは,さらなる訓練や微調整をすることなく,創造的なブレンディング能力を示すことを示す。
それぞれのブレンディングテクニックは、特定の条件下では排他的であり、即時順序付け、概念距離、ランダムシードなどの要因が結果に影響を与える。
これらの知見は拡散モデルの顕著な構成ポテンシャルを浮き彫りにし, 微妙な入力変化に対する感度を明らかにする。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - How to Blend Concepts in Diffusion Models [48.68800153838679]
近年の手法は複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。
我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。
我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。
論文 参考訳(メタデータ) (2024-07-19T13:05:57Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance [19.221431052643222]
本稿では,テキストと画像の拡散モデルに対して,複雑な場面における各主題間の相互干渉に対処するための一般的なアプローチを提案する。
本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。
そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。
論文 参考訳(メタデータ) (2024-03-25T17:16:27Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。