論文の概要: Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2405.13685v2
- Date: Sun, 13 Apr 2025 21:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:40.168243
- Title: Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion
- Title(参考訳): 生成芸術の財務モデル:テキストと画像の拡散におけるブラックスクールの発想
- Authors: Divya Kothandaraman, Ming Lin, Dinesh Manocha,
- Abstract要約: 本稿では,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。
我々は,ブラック・スコールズ・フレームワークのマルコフ力学を生かした,概念ブレンディングのための堅牢なアルゴリズムを導出する。
我々の研究は、経済的にインスパイアされた技術が、生成AIのテキストと画像の融合を促進できることを示している。
- 参考スコア(独自算出の注目度): 57.03116054807942
- License:
- Abstract: We introduce a novel approach for concept blending in pretrained text-to-image diffusion models, aiming to generate images at the intersection of multiple text prompts. At each time step during diffusion denoising, our algorithm forecasts predictions w.r.t. the generated image and makes informed text conditioning decisions. Central to our method is the unique analogy between diffusion models, which are rooted in non-equilibrium thermodynamics, and the Black-Scholes model for financial option pricing. By drawing parallels between key variables in both domains, we derive a robust algorithm for concept blending that capitalizes on the Markovian dynamics of the Black-Scholes framework. Our text-based concept blending algorithm is data-efficient, meaning it does not need additional training. Furthermore, it operates without human intervention or hyperparameter tuning. We highlight the benefits of our approach by comparing it qualitatively and quantitatively to other text based concept blending techniques, including linear interpolation, alternating prompts, step-wise prompt switching, and CLIP-guided prompt selection across various scenarios such as single object per text prompt, multiple objects per text prompt and objects against backgrounds. Our work shows that financially inspired techniques can enhance text-to-image concept blending in generative AI, paving the way for broader innovation. Code is available at https://github.com/divyakraman/BlackScholesDiffusion2024.
- Abstract(参考訳): 本稿では,複数のテキストプロンプトの交わりで画像を生成することを目的とした,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。
拡散デノゲーション中の各ステップにおいて、我々のアルゴリズムは生成した画像の予測を予測し、インフォームドテキスト条件決定を行う。
本手法の中心となるのは,非平衡熱力学に根ざした拡散モデルと,金融オプション価格のブラックショルズモデルとのユニークな類似性である。
両領域の鍵変数間の並列性を描くことにより、ブラック・スコルズ・フレームワークのマルコフ力学を生かした概念ブレンディングの頑健なアルゴリズムを導出する。
我々のテキストベースの概念ブレンディングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。
さらに、人間の介入やハイパーパラメータチューニングなしで動作します。
線形補間,交替プロンプト,ステップワイドプロンプトスイッチング,CLIP誘導プロンプト選択など,テキストプロンプト毎の単一オブジェクト,テキストプロンプト毎の複数オブジェクト,バックグラウンドに対するオブジェクトなど,他のテキストベースコンセプトブレンディング技術と比較することにより,このアプローチのメリットを強調した。
我々の研究は、経済的にインスピレーションを受けた技術が、生成AIにテキストと画像の融合を促進させ、より広範なイノベーションの道を開くことができることを示している。
コードはhttps://github.com/divyakraman/BlackScholesDiffusion2024で公開されている。
関連論文リスト
- Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review [59.856222854472605]
このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。
生物学のような分野における実践的な応用は、しばしば特定の指標を最大化するサンプル生成を必要とする。
本稿では,(1)推論時と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの接続について論じる。
論文 参考訳(メタデータ) (2025-01-16T17:37:35Z) - Test-time Conditional Text-to-Image Synthesis Using Diffusion Models [15.24270990274781]
TINTIN: Diffusion Modelsを用いたテスト時条件テキスト画像合成は、新しいトレーニング不要なテスト時のみのアルゴリズムである。
質的にも定量的にも、現在の最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-16T13:32:18Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。