論文の概要: NoiseAR: AutoRegressing Initial Noise Prior for Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.01337v1
- Date: Mon, 02 Jun 2025 05:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.045026
- Title: NoiseAR: AutoRegressing Initial Noise Prior for Diffusion Models
- Title(参考訳): ノイズレーダー:拡散モデルに先立つ初期騒音の自己回帰
- Authors: Zeming Li, Xiangyue Liu, Xiangyu Zhang, Ping Tan, Heung-Yeung Shum,
- Abstract要約: NoiseARは拡散モデルに先立つ自己回帰初期雑音の新しい手法である。
空間パッチやトークン上での自己回帰的確率的モデリングタスクとして,初期雑音先行パラメータの生成を定式化する。
実験により,ノイズレーダが初期雑音を発生させることで,サンプル品質が向上し,条件付き入力との整合性が向上することを示した。
- 参考スコア(独自算出の注目度): 50.51982871889886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as powerful generative frameworks, creating data samples by progressively denoising an initial random state. Traditionally, this initial state is sampled from a simple, fixed distribution like isotropic Gaussian, inherently lacking structure and a direct mechanism for external control. While recent efforts have explored ways to introduce controllability into the diffusion process, particularly at the initialization stage, they often rely on deterministic or heuristic approaches. These methods can be suboptimal, lack expressiveness, and are difficult to scale or integrate into more sophisticated optimization frameworks. In this paper, we introduce NoiseAR, a novel method for AutoRegressive Initial Noise Prior for Diffusion Models. Instead of a static, unstructured source, NoiseAR learns to generate a dynamic and controllable prior distribution for the initial noise. We formulate the generation of the initial noise prior's parameters as an autoregressive probabilistic modeling task over spatial patches or tokens. This approach enables NoiseAR to capture complex spatial dependencies and introduce learned structure into the initial state. Crucially, NoiseAR is designed to be conditional, allowing text prompts to directly influence the learned prior, thereby achieving fine-grained control over the diffusion initialization. Our experiments demonstrate that NoiseAR can generate initial noise priors that lead to improved sample quality and enhanced consistency with conditional inputs, offering a powerful, learned alternative to traditional random initialization. A key advantage of NoiseAR is its probabilistic formulation, which naturally supports seamless integration into probabilistic frameworks like Markov Decision Processes and Reinforcement Learning. Our code will be available at https://github.com/HKUST-SAIL/NoiseAR/
- Abstract(参考訳): 拡散モデルは強力な生成フレームワークとして登場し、初期ランダム状態を段階的に認知することでデータサンプルを作成する。
伝統的に、この初期状態は、本質的に構造が欠如しており、外部制御の直接的なメカニズムである、等方的ガウス分布のような単純で固定的な分布からサンプリングされる。
最近の研究は拡散過程、特に初期化段階で制御可能性を導入する方法を模索しているが、それらは決定論的あるいはヒューリスティックなアプローチに依存していることが多い。
これらの手法は準最適であり、表現力の欠如があり、拡張やより洗練された最適化フレームワークへの統合が困難である。
本稿では,拡散モデルに対する自己回帰初期雑音優先手法であるNossARを紹介する。
静的で非構造的なソースの代わりに、NossARは初期ノイズに対する動的で制御可能な事前分布を生成することを学ぶ。
空間パッチやトークン上での自己回帰的確率的モデリングタスクとして,初期雑音先行パラメータの生成を定式化する。
このアプローチにより、NossARは複雑な空間依存をキャプチャし、学習された構造を初期状態に導入することができる。
重要なことは、NossARは条件付きで設計されており、テキストプロンプトが学習した事前に直接影響し、拡散初期化に対するきめ細かい制御を実現することができる。
実験により、ノイズARは、サンプル品質を改善し、条件付き入力との整合性を高め、従来のランダム初期化に代わる強力で学習された代替手段を提供することができることを示す。
NoiseARの重要な利点は確率的定式化であり、マルコフ決定プロセスや強化学習のような確率的フレームワークへのシームレスな統合を自然にサポートする。
私たちのコードはhttps://github.com/HKUST-SAIL/NoiseAR/で利用可能です。
関連論文リスト
- Beyond Fixed Horizons: A Theoretical Framework for Adaptive Denoising Diffusions [1.9116784879310031]
本稿では, ノイズ発生過程とノイズ発生過程の両方において, 時間均質な構造を実現する新しい生成拡散モデルを提案する。
モデルの主な特徴は、ターゲットデータへの適応性であり、事前訓練された無条件生成モデルを使用して、様々な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-01-31T18:23:27Z) - RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Beyond Image Prior: Embedding Noise Prior into Conditional Denoising Transformer [17.430622649002427]
既存の学習ベースの推論手法は、大規模なデータセットからイメージを一般化するためにモデルを訓練するのが一般的である。
本稿では,ノイズと画像の先行部分の分離を区別することによる,難読化問題に対する新たな視点を提案する。
本稿では,1つの生雑音画像から直接先行する雑音を正確に推定する局所雑音優先推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。