論文の概要: Golden Noise for Diffusion Models: A Learning Framework
- arxiv url: http://arxiv.org/abs/2411.09502v1
- Date: Thu, 14 Nov 2024 15:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:54.930948
- Title: Golden Noise for Diffusion Models: A Learning Framework
- Title(参考訳): 拡散モデルのためのゴールデンノイズ:学習フレームワーク
- Authors: Zikai Zhou, Shitong Shao, Lichen Bai, Zhiqiang Xu, Bo Han, Zeke Xie,
- Abstract要約: テキスト・ツー・イメージ拡散モデルは、テキストプロンプトとランダムなガウスノイズを提供することでパーソナライズされた画像を合成する一般的なパラダイムである。
テキスト画像のアライメントが向上し、人の好みが向上する「黄金のノイズ」を人々は見ているが、これらの黄金のノイズを得るための機械学習フレームワークはいまだに欠如している。
- 参考スコア(独自算出の注目度): 26.117889730713923
- License:
- Abstract: Text-to-image diffusion model is a popular paradigm that synthesizes personalized images by providing a text prompt and a random Gaussian noise. While people observe that some noises are ``golden noises'' that can achieve better text-image alignment and higher human preference than others, we still lack a machine learning framework to obtain those golden noises. To learn golden noises for diffusion sampling, we mainly make three contributions in this paper. First, we identify a new concept termed the \textit{noise prompt}, which aims at turning a random Gaussian noise into a golden noise by adding a small desirable perturbation derived from the text prompt. Following the concept, we first formulate the \textit{noise prompt learning} framework that systematically learns ``prompted'' golden noise associated with a text prompt for diffusion models. Second, we design a noise prompt data collection pipeline and collect a large-scale \textit{noise prompt dataset}~(NPD) that contains 100k pairs of random noises and golden noises with the associated text prompts. With the prepared NPD as the training dataset, we trained a small \textit{noise prompt network}~(NPNet) that can directly learn to transform a random noise into a golden noise. The learned golden noise perturbation can be considered as a kind of prompt for noise, as it is rich in semantic information and tailored to the given text prompt. Third, our extensive experiments demonstrate the impressive effectiveness and generalization of NPNet on improving the quality of synthesized images across various diffusion models, including SDXL, DreamShaper-xl-v2-turbo, and Hunyuan-DiT. Moreover, NPNet is a small and efficient controller that acts as a plug-and-play module with very limited additional inference and computational costs, as it just provides a golden noise instead of a random noise without accessing the original pipeline.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、テキストプロンプトとランダムなガウスノイズを提供することでパーソナライズされた画像を合成する一般的なパラダイムである。
いくつかのノイズが‘黄金のノイズ’であり、テキスト画像のアライメントが向上し、人の好みが向上するのに対して、私たちはそのような黄金のノイズを得るための機械学習フレームワークをいまだに欠いている。
拡散サンプリングのためのゴールデンノイズを学習するために,本論文では主に3つの貢献を行う。
まず,テキストプロンプトから所望の摂動を加味することで,ランダムなガウス雑音を黄金の雑音に変えることを目的とした「textit{noise prompt}」という新しい概念を同定する。
この概念に従って,拡散モデルのテキストプロンプトに関連付けられた ``prompted'' の黄金ノイズを体系的に学習する「textit{noise prompt learning} フレームワークを最初に定式化する。
次に、ノイズプロンプトデータ収集パイプラインを設計し、関連するテキストプロンプトと100万対のランダムノイズと黄金ノイズを含む大規模 \textit{noise prompt dataset}~(NPD) を収集する。
トレーニングデータセットとして準備されたNPDを用いて、ランダムノイズをゴールデンノイズに変換することを直接学習できる小さな \textit{noise prompt network}~(NPNet) を訓練した。
学習された黄金のノイズ摂動は、意味情報に富み、与えられたテキストのプロンプトに合わせて調整されているため、ノイズのある種のプロンプトとみなすことができる。
第3に、SDXL、DreamShaper-xl-v2-turbo、Hunyuan-DiTなど、様々な拡散モデルにおける合成画像の品質向上に対するNPNetの顕著な効果と一般化を示す。
さらにNPNetは、プラグイン・アンド・プレイモジュールとして機能する小型で効率的なコントローラであり、元々のパイプラインにアクセスすることなく、ランダムノイズの代わりにゴールデンノイズを提供するだけなので、追加の推論と計算コストが非常に限られている。
関連論文リスト
- One Noise to Rule Them All: Learning a Unified Model of Spatially-Varying Noise Patterns [33.293193191683145]
本稿では,複数種類のノイズを生成できる単一生成モデルを提案する。
また, 逆手続き材料設計の改善に本モデルを適用した。
論文 参考訳(メタデータ) (2024-04-25T02:23:11Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - A Generative Model for Digital Camera Noise Synthesis [12.236112464800403]
クリーンな特徴をガイダンスとして利用し,続いてネットワークにノイズ注入を行う効果的な生成モデルを提案する。
具体的には、ジェネレータはスキップ接続を持つUNetのような構造を踏襲するが、ダウンサンプリングやアップサンプリングは行わない。
提案手法は,カメラノイズを合成するための既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T10:17:33Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Noise2NoiseFlow: Realistic Camera Noise Modeling without Clean Images [35.29066692454865]
本稿では,ノイズモデルとデノイザを同時にトレーニングするためのフレームワークを提案する。
ノイズ/クリーンなペア画像データではなく、ノイズの多いイメージのペアに依存します。
トレーニングされたデノイザーは、教師付きおよび弱教師付きベースラインデノイジングアプローチの両方において、大幅に改善される。
論文 参考訳(メタデータ) (2022-06-02T15:31:40Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - C2N: Practical Generative Noise Modeling for Real-World Denoising [53.96391787869974]
両例を使わずに複雑な実世界の騒音を模倣するクリーン・ツー・ノイズ画像生成フレームワーク,すなわちC2Nを導入する。
我々は,C2Nの騒音発生器を実世界の騒音特性の成分に応じて構築し,広い範囲の騒音を正確に表現する。
論文 参考訳(メタデータ) (2022-02-19T05:53:46Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。