論文の概要: Imagine for Me: Creative Conceptual Blending of Real Images and Text via Blended Attention
- arxiv url: http://arxiv.org/abs/2506.24085v1
- Date: Mon, 30 Jun 2025 17:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.175785
- Title: Imagine for Me: Creative Conceptual Blending of Real Images and Text via Blended Attention
- Title(参考訳): リアル画像とテキストの創造的な概念的ブレンディング
- Authors: Wonwoong Cho, Yanxia Zhang, Yan-Ying Chen, David I. Inouye,
- Abstract要約: 人間に対するクロスモーダルな概念ブレンディングは、デザインの固定のような認知バイアスを引き起こす。
本稿では, ブレンディングプロセスの自動化により, 人間の創造性を向上するT2I拡散アダプタ"IT-Blender"を提案する。
- 参考スコア(独自算出の注目度): 11.686174382596667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blending visual and textual concepts into a new visual concept is a unique and powerful trait of human beings that can fuel creativity. However, in practice, cross-modal conceptual blending for humans is prone to cognitive biases, like design fixation, which leads to local minima in the design space. In this paper, we propose a T2I diffusion adapter "IT-Blender" that can automate the blending process to enhance human creativity. Prior works related to cross-modal conceptual blending are limited in encoding a real image without loss of details or in disentangling the image and text inputs. To address these gaps, IT-Blender leverages pretrained diffusion models (SD and FLUX) to blend the latent representations of a clean reference image with those of the noisy generated image. Combined with our novel blended attention, IT-Blender encodes the real reference image without loss of details and blends the visual concept with the object specified by the text in a disentangled way. Our experiment results show that IT-Blender outperforms the baselines by a large margin in blending visual and textual concepts, shedding light on the new application of image generative models to augment human creativity.
- Abstract(参考訳): 視覚的およびテキスト的概念を新しい視覚的概念にブレンディングすることは、創造性を刺激する人間の独特で強力な特性である。
しかし、実際には、人間に対するクロスモーダルな概念ブレンディングは、デザインの固定のような認知バイアスを伴いやすいため、デザイン空間の局所的なミニマに繋がる。
本稿では,人間の創造性を向上するブレンディングプロセスを自動化するT2I拡散アダプタ"IT-Blender"を提案する。
クロスモーダルな概念ブレンディングに関連する以前の作品は、詳細を損なわずに実際の画像を符号化したり、画像とテキストの入力をアンタングするときに限られていた。
これらのギャップに対処するため、IT-Blenderは事前訓練された拡散モデル(SDとFLUX)を活用して、クリーン参照画像の潜伏表現とノイズ発生画像とをブレンドする。
新たなブレンドされた注目と組み合わせて、IT-Blenderは、詳細を損なうことなく実際の参照画像をエンコードし、その視覚概念とテキストが指定したオブジェクトをアンタングルした方法でブレンドする。
実験の結果,ITブレンダーは視覚的・テキスト的概念のブレンドにおいて,人間の創造性を高めるための画像生成モデルの新たな応用に光を当てることで,ベースラインをはるかに上回っていることがわかった。
関連論文リスト
- Blending Concepts with Text-to-Image Diffusion Models [48.68800153838679]
近年の拡散モデルでは、抽象概念を驚くほど容易に高忠実度画像に変換し、テキスト・画像生成が進歩している。
本研究では,具体的対象から無形概念まで,異なる概念を,ゼロショットの枠組みの下で統一された新しい視覚的実体にブレンドできるかどうかを考察する。
現代の拡散モデルでは、さらなる訓練や微調整をすることなく、創造的なブレンディング能力を示すことが示される。
論文 参考訳(メタデータ) (2025-06-30T08:53:30Z) - VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control [8.685610154314459]
拡散モデルはテキストから画像生成の素晴らしい才能を示すが、それでも高い美的イメージを生成できない可能性がある。
プラグイン・アンド・プレイの美学アダプタであるVMix Adapterを提案する。
我々の重要な洞察は、優れた条件制御法を設計することで、既存の拡散モデルの美的提示を強化することである。
論文 参考訳(メタデータ) (2024-12-30T08:47:25Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion [57.03116054807942]
本稿では,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。
我々は,ブラック・スコールズ・フレームワークのマルコフ力学を生かした,概念ブレンディングのための堅牢なアルゴリズムを導出する。
我々の研究は、経済的にインスパイアされた技術が、生成AIのテキストと画像の融合を促進できることを示している。
論文 参考訳(メタデータ) (2024-05-22T14:25:57Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - DiffMorph: Text-less Image Morphing with Diffusion Models [0.0]
verb|DiffMorph|は、テキストプロンプトを使わずに概念を混ぜたイメージを合成する。
verb|DiffMorph|は、アーティストが描いたスケッチを条件付けして初期画像を取得し、モルヒネ画像を生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルを用いて、各画像を忠実に再構成する。
論文 参考訳(メタデータ) (2024-01-01T12:42:32Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。