論文の概要: Test-time Conditional Text-to-Image Synthesis Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.10800v1
- Date: Sat, 16 Nov 2024 13:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:26.333573
- Title: Test-time Conditional Text-to-Image Synthesis Using Diffusion Models
- Title(参考訳): 拡散モデルを用いたテスト時間条件付きテキスト・画像合成
- Authors: Tripti Shukla, Srikrishna Karanam, Balaji Vasan Srinivasan,
- Abstract要約: TINTIN: Diffusion Modelsを用いたテスト時条件テキスト画像合成は、新しいトレーニング不要なテスト時のみのアルゴリズムである。
質的にも定量的にも、現在の最先端技術よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 15.24270990274781
- License:
- Abstract: We consider the problem of conditional text-to-image synthesis with diffusion models. Most recent works need to either finetune specific parts of the base diffusion model or introduce new trainable parameters, leading to deployment inflexibility due to the need for training. To address this gap in the current literature, we propose our method called TINTIN: Test-time Conditional Text-to-Image Synthesis using Diffusion Models which is a new training-free test-time only algorithm to condition text-to-image diffusion model outputs on conditioning factors such as color palettes and edge maps. In particular, we propose to interpret noise predictions during denoising as gradients of an energy-based model, leading to a flexible approach to manipulate the noise by matching predictions inferred from them to the ground truth conditioning input. This results in, to the best of our knowledge, the first approach to control model outputs with input color palettes, which we realize using a novel color distribution matching loss. We also show this test-time noise manipulation can be easily extensible to other types of conditioning, e.g., edge maps. We conduct extensive experiments using a variety of text prompts, color palettes, and edge maps and demonstrate significant improvement over the current state-of-the-art, both qualitatively and quantitatively.
- Abstract(参考訳): 拡散モデルを用いた条件付きテキスト・画像合成の問題点を考察する。
最近の研究では、ベース拡散モデルの特定の部分を微調整するか、新しいトレーニング可能なパラメータを導入する必要がある。
カラーパレットやエッジマップなどの条件因子に基づいてテキスト・ツー・イメージ拡散モデル出力を条件付けするための、新しいトレーニング不要なテスト時間のみのアルゴリズムである拡散モデルを用いたテスト時条件テキスト・トゥ・イメージ合成(TINTIN: Test-time Conditional Text-to-Image Synthesis)を提案する。
特に、エネルギーベースモデルの勾配としてデノベーション中の騒音予測を解釈することを提案し、そこから推定された予測を基底真理条件入力に一致させることにより、騒音を制御するための柔軟なアプローチを提案する。
その結果,入力色パレットを用いてモデル出力を制御し,新たな色分布整合損失を生かした最初の手法が得られた。
また、このテスト時間ノイズ操作は、例えばエッジマップのような他の条件付けにも容易に拡張可能であることを示す。
各種のテキストプロンプト,カラーパレット,エッジマップを用いて広範な実験を行い,定性的かつ定量的に現在の最先端技術に対する大幅な改善を示す。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Prompt Mixing in Diffusion Models using the Black Scholes Algorithm [57.03116054807942]
本稿では,複数のテキストプロンプトの交わりで画像を生成することを目的とした,プロンプトミキシングのための新しいアプローチを提案する。
我々は、金融の価格設定に、拡散モデルとブラック・スコイルズ・モデルとの接続を利用する。
我々のプロンプトミキシングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。
論文 参考訳(メタデータ) (2024-05-22T14:25:57Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text [5.675944597452309]
事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:46:12Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。