Fugu-MT 論文翻訳(概要): Test-time Conditional Text-to-Image Synthesis Using Diffusion Models

論文の概要: Test-time Conditional Text-to-Image Synthesis Using Diffusion Models

arxiv url: http://arxiv.org/abs/2411.10800v1
Date: Sat, 16 Nov 2024 13:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.362783
Title: Test-time Conditional Text-to-Image Synthesis Using Diffusion Models
Title（参考訳）: 拡散モデルを用いたテスト時間条件付きテキスト・画像合成
Authors: Tripti Shukla, Srikrishna Karanam, Balaji Vasan Srinivasan,
Abstract要約: TINTIN: Diffusion Modelsを用いたテスト時条件テキスト画像合成は、新しいトレーニング不要なテスト時のみのアルゴリズムである。質的にも定量的にも、現在の最先端技術よりも大幅に改善されていることを示す。
参考スコア（独自算出の注目度）: 15.24270990274781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of conditional text-to-image synthesis with diffusion models. Most recent works need to either finetune specific parts of the base diffusion model or introduce new trainable parameters, leading to deployment inflexibility due to the need for training. To address this gap in the current literature, we propose our method called TINTIN: Test-time Conditional Text-to-Image Synthesis using Diffusion Models which is a new training-free test-time only algorithm to condition text-to-image diffusion model outputs on conditioning factors such as color palettes and edge maps. In particular, we propose to interpret noise predictions during denoising as gradients of an energy-based model, leading to a flexible approach to manipulate the noise by matching predictions inferred from them to the ground truth conditioning input. This results in, to the best of our knowledge, the first approach to control model outputs with input color palettes, which we realize using a novel color distribution matching loss. We also show this test-time noise manipulation can be easily extensible to other types of conditioning, e.g., edge maps. We conduct extensive experiments using a variety of text prompts, color palettes, and edge maps and demonstrate significant improvement over the current state-of-the-art, both qualitatively and quantitatively.
Abstract（参考訳）: 拡散モデルを用いた条件付きテキスト・画像合成の問題点を考察する。最近の研究では、ベース拡散モデルの特定の部分を微調整するか、新しいトレーニング可能なパラメータを導入する必要がある。カラーパレットやエッジマップなどの条件因子に基づいてテキスト・ツー・イメージ拡散モデル出力を条件付けするための、新しいトレーニング不要なテスト時間のみのアルゴリズムである拡散モデルを用いたテスト時条件テキスト・トゥ・イメージ合成(TINTIN: Test-time Conditional Text-to-Image Synthesis)を提案する。特に、エネルギーベースモデルの勾配としてデノベーション中の騒音予測を解釈することを提案し、そこから推定された予測を基底真理条件入力に一致させることにより、騒音を制御するための柔軟なアプローチを提案する。その結果,入力色パレットを用いてモデル出力を制御し,新たな色分布整合損失を生かした最初の手法が得られた。また、このテスト時間ノイズ操作は、例えばエッジマップのような他の条件付けにも容易に拡張可能であることを示す。各種のテキストプロンプト,カラーパレット,エッジマップを用いて広範な実験を行い,定性的かつ定量的に現在の最先端技術に対する大幅な改善を示す。

関連論文リスト

Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。 ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳（メタデータ） (2025-03-21T15:28:22Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Prompt Mixing in Diffusion Models using the Black Scholes Algorithm [57.03116054807942]
本稿では,複数のテキストプロンプトの交わりで画像を生成することを目的とした,プロンプトミキシングのための新しいアプローチを提案する。我々は、金融の価格設定に、拡散モデルとブラック・スコイルズ・モデルとの接続を利用する。我々のプロンプトミキシングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。
論文参考訳（メタデータ） (2024-05-22T14:25:57Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text [5.675944597452309]
事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
論文参考訳（メタデータ） (2024-01-02T22:46:12Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文参考訳（メタデータ） (2023-09-18T09:36:24Z)
Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文参考訳（メタデータ） (2023-02-05T12:48:21Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。