論文の概要: Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.04504v1
- Date: Mon, 06 Oct 2025 05:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.69417
- Title: Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation
- Title(参考訳): テキスト対画像生成の非同期デノジング拡散モデル
- Authors: Zijing Hu, Yunze Tong, Fengda Zhang, Junkun Yuan, Jun Xiao, Kun Kuang,
- Abstract要約: 本稿では,異なる画素に異なるタイムステップを割り当て,画素単位の分解過程を再構成する新しいフレームワークを提案する。
実験により、非同期拡散モデルにより、多様なプロンプト間のテキスト・画像のアライメントが大幅に改善できることが実証された。
- 参考スコア(独自算出の注目度): 48.203403471536866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved impressive results in generating high-quality images. Yet, they often struggle to faithfully align the generated images with the input prompts. This limitation arises from synchronous denoising, where all pixels simultaneously evolve from random noise to clear images. As a result, during generation, the prompt-related regions can only reference the unrelated regions at the same noise level, failing to obtain clear context and ultimately impairing text-to-image alignment. To address this issue, we propose asynchronous diffusion models -- a novel framework that allocates distinct timesteps to different pixels and reformulates the pixel-wise denoising process. By dynamically modulating the timestep schedules of individual pixels, prompt-related regions are denoised more gradually than unrelated regions, thereby allowing them to leverage clearer inter-pixel context. Consequently, these prompt-related regions achieve better alignment in the final images. Extensive experiments demonstrate that our asynchronous diffusion models can significantly improve text-to-image alignment across diverse prompts. The code repository for this work is available at https://github.com/hu-zijing/AsynDM.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成するという素晴らしい結果を得た。
しかし、彼らはしばしば、生成された画像を入力プロンプトと忠実に整合させることに苦労する。
この制限は、すべてのピクセルがランダムノイズからクリアな画像へと同時に進化する同期デノイングから生じる。
その結果、生成中、プロンプト関連領域は同じノイズレベルでのみ非関連領域を参照することができ、明確なコンテキストを得ることができず、究極的にはテキストと画像のアライメントを損なう。
この問題に対処するため、我々は非同期拡散モデル(非同期拡散モデル)を提案し、異なる画素に異なる時間ステップを割り当て、画素単位の分解プロセスを再構成する新しいフレームワークを提案する。
個々の画素のタイムステップスケジュールを動的に調整することにより、プロンプト関連領域は非関連領域よりも徐々に認知され、より鮮明な画素間コンテキストを活用することができる。
その結果、これらのプロンプト関連領域は最終画像のアライメントが良くなる。
大規模な実験により、我々の非同期拡散モデルは多様なプロンプトをまたいだテキストと画像のアライメントを大幅に改善できることが示された。
この作業のコードリポジトリはhttps://github.com/hu-zijing/AsynDMで公開されている。
関連論文リスト
- SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation [9.212970624261272]
最先端のテキスト画像モデルは視覚的に印象的な結果をもたらすが、しばしばテキストプロンプトへの正確なアライメントに苦慮する。
本稿では,ターゲットプロンプトに条件付き高精度分布を学習する手法を提案する。
提案手法は,過度な最適化を緩和する微粒化制御を実現することで,デノナイズプロセス中の信号成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2025-08-19T14:31:15Z) - From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models [43.04874003852966]
本稿では,複数の手書き領域から高品質な画像がほぼリアルタイムで生成されるインタラクティブコンテンツ作成の新たなパラダイムであるSemanticDrawを紹介する。
提案フレームワークは,既存の拡散モデルや加速度スケジューラに対して一般化可能であり,サブ秒(0.64秒)の画像コンテンツ作成アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-03-14T02:51:01Z) - Interpolating between Images with Diffusion Models [2.6027967363792865]
2つの入力イメージ間の補間は、画像生成パイプラインから欠落するタスクである。
潜在拡散モデルを用いたゼロショット法を提案する。
一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して最高の画質のイメージを選択することができる。
論文 参考訳(メタデータ) (2023-07-24T07:03:22Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。