論文の概要: Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.23974v1
- Date: Tue, 28 Oct 2025 01:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.701067
- Title: Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのための拡散適応テキスト埋め込み
- Authors: Byeonghu Na, Minsang Park, Gyuwon Sim, Donghyeok Shin, HeeSun Bae, Mina Kang, Se Jung Kwon, Wanmo Kang, Il-Chul Moon,
- Abstract要約: そこで我々は拡散適応テキスト埋め込み (DATE) を提案し, 中間摂動データに基づく各拡散段階におけるテキスト埋め込みを動的に更新する。
DATEは、様々なタスクにまたがる固定されたテキスト埋め込みに対して、優れたテキストイメージアライメントを提供しながら、モデルの生成能力を維持していることを示す。
- 参考スコア(独自算出の注目度): 33.043266237235606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models rely on text embeddings from a pre-trained text encoder, but these embeddings remain fixed across all diffusion timesteps, limiting their adaptability to the generative process. We propose Diffusion Adaptive Text Embedding (DATE), which dynamically updates text embeddings at each diffusion timestep based on intermediate perturbed data. We formulate an optimization problem and derive an update rule that refines the text embeddings at each sampling step to improve alignment and preference between the mean predicted image and the text. This allows DATE to dynamically adapts the text conditions to the reverse-diffused images throughout diffusion sampling without requiring additional model training. Through theoretical analysis and empirical results, we show that DATE maintains the generative capability of the model while providing superior text-image alignment over fixed text embeddings across various tasks, including multi-concept generation and text-guided image editing. Our code is available at https://github.com/aailab-kaist/DATE.
- Abstract(参考訳): テキストから画像への拡散モデルは、事前訓練されたテキストエンコーダからのテキスト埋め込みに依存しているが、これらの埋め込みはすべての拡散時間ステップにわたって固定され、生成プロセスへの適応性が制限される。
そこで我々は拡散適応テキスト埋め込み (DATE) を提案し, 中間摂動データに基づく各拡散段階におけるテキスト埋め込みを動的に更新する。
最適化問題を定式化し、各サンプリングステップにおけるテキスト埋め込みを洗練し、平均予測画像とテキスト間のアライメントと嗜好を改善する更新ルールを導出する。
これにより、DATEは、追加のモデルトレーニングを必要とせずに拡散サンプリングを通して、テキスト条件を逆拡散画像に動的に適応させることができる。
理論的解析と経験的結果から、DATEは、マルチコンセプト生成やテキスト誘導画像編集など、様々なタスクにまたがる固定テキスト埋め込みよりも優れたテキストイメージアライメントを提供しながら、モデルの生成能力を維持していることを示す。
私たちのコードはhttps://github.com/aailab-kaist/DATEで公開されています。
関連論文リスト
- Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。