論文の概要: Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2405.13685v2
- Date: Sun, 13 Apr 2025 21:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 06:38:42.891719
- Title: Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion
- Title(参考訳): 生成芸術の財務モデル:テキストと画像の拡散におけるブラックスクールの発想
- Authors: Divya Kothandaraman, Ming Lin, Dinesh Manocha,
- Abstract要約: 本稿では,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。
我々は,ブラック・スコールズ・フレームワークのマルコフ力学を生かした,概念ブレンディングのための堅牢なアルゴリズムを導出する。
我々の研究は、経済的にインスパイアされた技術が、生成AIのテキストと画像の融合を促進できることを示している。
- 参考スコア(独自算出の注目度): 57.03116054807942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel approach for concept blending in pretrained text-to-image diffusion models, aiming to generate images at the intersection of multiple text prompts. At each time step during diffusion denoising, our algorithm forecasts predictions w.r.t. the generated image and makes informed text conditioning decisions. Central to our method is the unique analogy between diffusion models, which are rooted in non-equilibrium thermodynamics, and the Black-Scholes model for financial option pricing. By drawing parallels between key variables in both domains, we derive a robust algorithm for concept blending that capitalizes on the Markovian dynamics of the Black-Scholes framework. Our text-based concept blending algorithm is data-efficient, meaning it does not need additional training. Furthermore, it operates without human intervention or hyperparameter tuning. We highlight the benefits of our approach by comparing it qualitatively and quantitatively to other text based concept blending techniques, including linear interpolation, alternating prompts, step-wise prompt switching, and CLIP-guided prompt selection across various scenarios such as single object per text prompt, multiple objects per text prompt and objects against backgrounds. Our work shows that financially inspired techniques can enhance text-to-image concept blending in generative AI, paving the way for broader innovation. Code is available at https://github.com/divyakraman/BlackScholesDiffusion2024.
- Abstract(参考訳): 本稿では,複数のテキストプロンプトの交わりで画像を生成することを目的とした,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。
拡散デノゲーション中の各ステップにおいて、我々のアルゴリズムは生成した画像の予測を予測し、インフォームドテキスト条件決定を行う。
本手法の中心となるのは,非平衡熱力学に根ざした拡散モデルと,金融オプション価格のブラックショルズモデルとのユニークな類似性である。
両領域の鍵変数間の並列性を描くことにより、ブラック・スコルズ・フレームワークのマルコフ力学を生かした概念ブレンディングの頑健なアルゴリズムを導出する。
我々のテキストベースの概念ブレンディングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。
さらに、人間の介入やハイパーパラメータチューニングなしで動作します。
線形補間,交替プロンプト,ステップワイドプロンプトスイッチング,CLIP誘導プロンプト選択など,テキストプロンプト毎の単一オブジェクト,テキストプロンプト毎の複数オブジェクト,バックグラウンドに対するオブジェクトなど,他のテキストベースコンセプトブレンディング技術と比較することにより,このアプローチのメリットを強調した。
我々の研究は、経済的にインスピレーションを受けた技術が、生成AIにテキストと画像の融合を促進させ、より広範なイノベーションの道を開くことができることを示している。
コードはhttps://github.com/divyakraman/BlackScholesDiffusion2024で公開されている。
関連論文リスト
- Test-time Conditional Text-to-Image Synthesis Using Diffusion Models [15.24270990274781]
TINTIN: Diffusion Modelsを用いたテスト時条件テキスト画像合成は、新しいトレーニング不要なテスト時のみのアルゴリズムである。
質的にも定量的にも、現在の最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-16T13:32:18Z) - Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance [19.221431052643222]
本稿では,テキストと画像の拡散モデルに対して,複雑な場面における各主題間の相互干渉に対処するための一般的なアプローチを提案する。
本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。
そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。
論文 参考訳(メタデータ) (2024-03-25T17:16:27Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。