論文の概要: Beyond Randomness: Understand the Order of the Noise in Diffusion
- arxiv url: http://arxiv.org/abs/2511.07756v1
- Date: Wed, 12 Nov 2025 01:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.463994
- Title: Beyond Randomness: Understand the Order of the Noise in Diffusion
- Title(参考訳): ランダム性を超えて:拡散における騒音の順序を理解する
- Authors: Song Yan, Min Li, Bi Xinliang, Jian Yang, Yusen Zhang, Guanye Xiong, Yunwei Lan, Tao Zhang, Wei Zhai, Zheng-Jun Zha,
- Abstract要約: テキスト駆動型コンテンツ生成(T2C)拡散モデルでは、生成したコンテンツのセマンティックスは主にテキスト埋め込みとアテンションメカニズムの相互作用によるものである。
本稿では,モデル生成に対するランダムノイズの影響を包括的に分析する。
本稿では,T2C拡散モデルの初期ノイズを変調する,単純で効率的なトレーニング不要で汎用的な2段階の「セマンティックエミッション・インジェクション」プロセスを提案する。
- 参考スコア(独自算出の注目度): 60.3872274940353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-driven content generation (T2C) diffusion model, semantic of generated content is mostly attributed to the process of text embedding and attention mechanism interaction. The initial noise of the generation process is typically characterized as a random element that contributes to the diversity of the generated content. Contrary to this view, this paper reveals that beneath the random surface of noise lies strong analyzable patterns. Specifically, this paper first conducts a comprehensive analysis of the impact of random noise on the model's generation. We found that noise not only contains rich semantic information, but also allows for the erasure of unwanted semantics from it in an extremely simple way based on information theory, and using the equivalence between the generation process of diffusion model and semantic injection to inject semantics into the cleaned noise. Then, we mathematically decipher these observations and propose a simple but efficient training-free and universal two-step "Semantic Erasure-Injection" process to modulate the initial noise in T2C diffusion model. Experimental results demonstrate that our method is consistently effective across various T2C models based on both DiT and UNet architectures and presents a novel perspective for optimizing the generation of diffusion model, providing a universal tool for consistent generation.
- Abstract(参考訳): テキスト駆動型コンテンツ生成(T2C)拡散モデルでは、生成したコンテンツのセマンティックスは主にテキスト埋め込みとアテンションメカニズムの相互作用によるものである。
生成プロセスの初期ノイズは、典型的には、生成されたコンテンツの多様性に寄与するランダムな要素として特徴づけられる。
これとは対照的に、雑音のランダムな面の下には強い分析可能なパターンが存在する。
具体的には,まずモデル生成に対するランダムノイズの影響を包括的に分析する。
その結果、ノイズはリッチな意味情報を含むだけでなく、情報理論に基づく極めて単純な方法で不要な意味情報の消去を可能にし、拡散モデルの生成過程と意味注入の等価性を利用して、セマンティクスをクリーンなノイズに注入できることがわかった。
そこで我々は,これらの観測を数学的に解読し,T2C拡散モデルにおける初期ノイズを変調する,単純で効率的なトレーニング不要で普遍的な2段階の「セマンティックエミッション・インジェクション」プロセスを提案する。
実験結果から,本手法はDiTアーキテクチャとUNetアーキテクチャの両方に基づくT2Cモデルに対して一貫した有効性を示し,拡散モデルの生成を最適化するための新しい視点を示し,一貫した生成のための普遍的なツールを提供する。
関連論文リスト
- The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - GUD: Generation with Unified Diffusion [40.64742332352373]
拡散生成モデルは、データサンプルにノイズを徐々に付加するプロセスを反転させることで、ノイズをデータに変換する。
設計自由度を大幅に向上した拡散生成モデル統合フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-03T16:51:14Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - One Noise to Rule Them All: Learning a Unified Model of Spatially-Varying Noise Patterns [33.293193191683145]
本稿では,複数種類のノイズを生成できる単一生成モデルを提案する。
また, 逆手続き材料設計の改善に本モデルを適用した。
論文 参考訳(メタデータ) (2024-04-25T02:23:11Z) - InfoDiffusion: Information Entropy Aware Diffusion Process for
Non-Autoregressive Text Generation [33.52794666968048]
本稿では,非自己回帰的テキスト拡散モデルであるInfoDiffusionを提案する。
提案手法は「キーフォファースト」生成戦略を導入し,テキスト情報量に基づいてノイズスケジュールを組み込む。
実験結果から,InfoDiffusionは生成品質と多様性の点でベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-18T14:01:39Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。