論文の概要: Colorful-Noise: Training-Free Low-Frequency Noise Manipulation for Color-Based Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2605.00548v1
- Date: Fri, 01 May 2026 10:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.924861
- Title: Colorful-Noise: Training-Free Low-Frequency Noise Manipulation for Color-Based Conditional Image Generation
- Title(参考訳): カラーベース条件画像生成のための無訓練低周波ノイズマニピュレーション
- Authors: Nadav Z. Cohen, Ofir Abramovich, Ariel Shamir,
- Abstract要約: テキスト・ツー・イメージ拡散モデルでは、白色ガウス雑音を自然な画像に変換することによって画像を生成する。
ホワイトガウシアンノイズは、構造が欠如しているため、単一のテキストプロンプトから多様な出力を生成するのによく適している。
本稿では,低周波成分が画像のグローバル構造と色組成を決定するのに対して,高周波成分は細部を制御していることを示す。
- 参考スコア(独自算出の注目度): 17.88083646215334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models generate images by gradually converting white Gaussian noise into a natural image. White Gaussian noise is well suited for producing diverse outputs from a single text prompt due to its absence of structure. However, this very property limits control over, and predictability of, specific visual attributes, as the noise is not human-interpretable. In this work, we investigate the characteristics of the input noise in diffusion models. We show that, although all frequencies in white Gaussian noise have comparable statistical energy, low-frequency components primarily determine the images global structure and color composition, while high-frequency components control finer details. Building on this observation, we demonstrate that simple manipulations of the low-frequency noise using low-frequency image priors can effectively condition the generation process to reconstruct these low-frequency visual cues. This allows us to define a simple, training-free method with minimal overhead that steers overall image structure and color, while letting high-frequency components freely emerge as fine details, enabling variability across generated outputs.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルでは、白色ガウス雑音を自然な画像に変換することによって画像を生成する。
ホワイトガウシアンノイズは、構造が欠如しているため、単一のテキストプロンプトから多様な出力を生成するのによく適している。
しかし、この特性は、ノイズが人間の解釈可能でないため、特定の視覚特性の制御と予測可能性を制限する。
本研究では,拡散モデルにおける入力雑音の特性について検討する。
白色ガウス雑音のすべての周波数は統計エネルギーに匹敵するが、低周波成分は画像のグローバルな構造と色組成を主に決定し、高周波成分はより詳細な制御を行う。
この観測に基づいて、低周波画像を用いた低周波ノイズの簡易な操作が、これらの低周波視覚的手がかりを効果的に再現するための生成過程を条件付けできることを実証する。
これにより、最小限のオーバーヘッドで、画像構造と色を操りながら、高周波コンポーネントを細部として自由に表示し、生成した出力のばらつきを可能にする、シンプルでトレーニング不要な方法が定義できる。
関連論文リスト
- Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation [86.7260950382448]
画像の妥当性を補正する新しい手法としてノイズ拡散法を提案する。
NoiseDiffusionはノイズの多い画像空間内で動作し、これらのノイズの多い画像に生画像を注入することで、情報損失の課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T12:32:25Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Hierarchical Disentangled Representation for Invertible Image Denoising
and Beyond [14.432771193620702]
画像の高周波部分にノイズが現れる傾向にあるという潜在観測に着想を得て,完全可逆復調法を提案する。
ノイズ画像は、可逆変換により、清浄な低周波およびハイブリッドな高周波部品に分解する。
このように、ノイズのない低周波部品と高周波部品とを逆にマージして、デノナイジングをトラクタブルにする。
論文 参考訳(メタデータ) (2023-01-31T01:24:34Z) - Seeing Through The Noisy Dark: Toward Real-world Low-Light Image
Enhancement and Denoising [125.56062454927755]
現実の低照度環境は通常、光やハードウェアの限界が不足しているため、視界が低く、騒音が重い。
我々は、RLED-Net(Real-world Low-light Enhancement & Denoising Network)と呼ばれる新しいエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2022-10-02T14:57:23Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Adaptive Unfolding Total Variation Network for Low-Light Image
Enhancement [6.531546527140475]
sRGB空間における既存の拡張アルゴリズムのほとんどは、低可視性問題にのみ焦点をあてるか、仮説的雑音レベルの下でノイズを抑圧する。
本稿では,実際のsRGB低照度画像から雑音レベルを近似する適応展開全変動ネットワーク(UTVNet)を提案する。
実世界の低照度画像に対する実験は、最先端の手法よりもUTVNetの優れた性能を明らかに示している。
論文 参考訳(メタデータ) (2021-10-03T11:22:17Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。