論文の概要: Prompt Mixing in Diffusion Models using the Black Scholes Algorithm
- arxiv url: http://arxiv.org/abs/2405.13685v1
- Date: Wed, 22 May 2024 14:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:45:08.058128
- Title: Prompt Mixing in Diffusion Models using the Black Scholes Algorithm
- Title(参考訳): Black Scholesアルゴリズムを用いた拡散モデルのプロンプト混合
- Authors: Divya Kothandaraman, Ming Lin, Dinesh Manocha,
- Abstract要約: 本稿では,複数のテキストプロンプトの交わりで画像を生成することを目的とした,プロンプトミキシングのための新しいアプローチを提案する。
我々は、金融の価格設定に、拡散モデルとブラック・スコイルズ・モデルとの接続を利用する。
我々のプロンプトミキシングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。
- 参考スコア(独自算出の注目度): 57.03116054807942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel approach for prompt mixing, aiming to generate images at the intersection of multiple text prompts using pre-trained text-to-image diffusion models. At each time step during diffusion denoising, our algorithm forecasts predictions w.r.t. the generated image and makes informed text conditioning decisions. To do so, we leverage the connection between diffusion models (rooted in non-equilibrium thermodynamics) and the Black-Scholes model for pricing options in Finance, and draw analogies between the variables in both contexts to derive an appropriate algorithm for prompt mixing using the Black Scholes model. Specifically, the parallels between diffusion models and the Black-Scholes model enable us to leverage properties related to the dynamics of the Markovian model derived in the Black-Scholes algorithm. Our prompt-mixing algorithm is data-efficient, meaning it does not need additional training. Furthermore, it operates without human intervention or hyperparameter tuning. We highlight the benefits of our approach by comparing it qualitatively and quantitatively to other prompt mixing techniques, including linear interpolation, alternating prompts, step-wise prompt switching, and CLIP-guided prompt selection across various scenarios such as single object per text prompt, multiple objects per text prompt and objects against backgrounds. Code is available at https://github.com/divyakraman/BlackScholesDiffusion2024.
- Abstract(参考訳): 本稿では,事前学習したテキスト-画像拡散モデルを用いて,複数のテキストプロンプトの交点における画像生成を目的とした,プロンプトミキシングのための新しいアプローチを提案する。
拡散デノゲーション中の各ステップにおいて、我々のアルゴリズムは生成した画像の予測を予測し、インフォームドテキスト条件決定を行う。
そのため、金融の価格設定に拡散モデル(非平衡熱力学に根ざした)とブラック・ショールズモデル(英語版)の接続を利用して、両方の文脈における変数間の類似性を引き合いに出し、ブラック・ショールズモデルを用いた迅速な混合のための適切なアルゴリズムを導出する。
具体的には、拡散モデルとブラック・スコルズ・モデルとの並列性により、ブラック・スコルズ・アルゴリズムから導かれるマルコフモデルの力学に関する特性を活用できる。
我々のプロンプトミキシングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。
さらに、人間の介入やハイパーパラメータチューニングなしで動作します。
我々は、線形補間、交替プロンプト、ステップワイドプロンプトスイッチング、CLIP誘導プロンプト選択など、テキストプロンプト毎の単一オブジェクト、テキストプロンプト毎の複数オブジェクト、バックグラウンドに対するオブジェクトなど、様々なシナリオにわたる様々なプロンプト選択など、他のプロンプトミキシング技術と質的に定量的に比較することで、このアプローチの利点を強調した。
コードはhttps://github.com/divyakraman/BlackScholesDiffusion2024で公開されている。
関連論文リスト
- Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review [59.856222854472605]
このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。
生物学のような分野における実践的な応用は、しばしば特定の指標を最大化するサンプル生成を必要とする。
本稿では,(1)推論時と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの接続について論じる。
論文 参考訳(メタデータ) (2025-01-16T17:37:35Z) - Test-time Conditional Text-to-Image Synthesis Using Diffusion Models [15.24270990274781]
TINTIN: Diffusion Modelsを用いたテスト時条件テキスト画像合成は、新しいトレーニング不要なテスト時のみのアルゴリズムである。
質的にも定量的にも、現在の最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-16T13:32:18Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。