論文の概要: FreSca: Unveiling the Scaling Space in Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.02154v1
- Date: Wed, 02 Apr 2025 22:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:42.074586
- Title: FreSca: Unveiling the Scaling Space in Diffusion Models
- Title(参考訳): FreSca: 拡散モデルにおけるスケーリングスペースの展開
- Authors: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu,
- Abstract要約: 拡散モデルは、主にタスク固有の情報をエンコードするノイズ予測と、調整可能なスケーリングを可能にするガイダンスを通じて、画像タスクに対して印象的な制御性を提供する。
条件/条件付き雑音予測の違いがキーセマンティック情報を伝達するインバージョンベースの編集から始めることで、この空間を考察する。
我々のコアコントリビューションは、ノイズ予測のフーリエ解析に起因し、その低周波成分と高周波成分が拡散を通して異なる進化を遂げていることを明らかにする。
この知見に基づいてFreScaを導入し、FreScaはフーリエ領域の異なる周波数帯域に独立してガイダンススケーリングを適用する簡単な方法である。
- 参考スコア(独自算出の注目度): 52.20473039489599
- License:
- Abstract: Diffusion models offer impressive controllability for image tasks, primarily through noise predictions that encode task-specific information and classifier-free guidance enabling adjustable scaling. This scaling mechanism implicitly defines a ``scaling space'' whose potential for fine-grained semantic manipulation remains underexplored. We investigate this space, starting with inversion-based editing where the difference between conditional/unconditional noise predictions carries key semantic information. Our core contribution stems from a Fourier analysis of noise predictions, revealing that its low- and high-frequency components evolve differently throughout diffusion. Based on this insight, we introduce FreSca, a straightforward method that applies guidance scaling independently to different frequency bands in the Fourier domain. FreSca demonstrably enhances existing image editing methods without retraining. Excitingly, its effectiveness extends to image understanding tasks such as depth estimation, yielding quantitative gains across multiple datasets.
- Abstract(参考訳): 拡散モデルは、主にタスク固有の情報をエンコードするノイズ予測と、調整可能なスケーリングを可能にする分類子なしガイダンスを通じて、画像タスクに対して印象的な制御性を提供する。
このスケーリングメカニズムは、きめ細かなセマンティックな操作の可能性はまだ未解明のままである 'scaling space'' を暗黙的に定義している。
条件/条件付き雑音予測の違いがキーセマンティック情報を伝達するインバージョンベースの編集から始めることで、この空間を考察する。
我々のコアコントリビューションは、ノイズ予測のフーリエ解析に起因し、低周波成分と高周波成分が拡散を通して異なる進化を遂げていることを明らかにする。
この知見に基づいてFreScaを導入し、FreScaはフーリエ領域の異なる周波数帯域に独立してガイダンススケーリングを適用する簡単な方法である。
FreScaは、既存の画像編集方法を再トレーニングすることなく、実証的に拡張する。
興味深いことに、その効果は深度推定などの画像理解タスクにまで拡張され、複数のデータセット間で定量的な利得が得られる。
関連論文リスト
- Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - VIPaint: Image Inpainting with Pre-Trained Diffusion Models via Variational Inference [5.852077003870417]
我々のVIPaint法は,提案手法の妥当性と多様性の両方において,従来の手法よりも優れていることを示す。
我々のVIPaint法は,提案手法の妥当性と多様性の両方において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-28T05:35:36Z) - Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。
実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-23T02:52:53Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images [14.236580915897585]
RSICCは、両時間的リモートセンシング画像ペア間の意味的変化を記述するために、人間のような言語を生成することを目的としている。
拡散モデルの顕著な生成力に着想を得て, RSICCの確率的拡散モデルを提案する。
学習過程において,マルコフ連鎖の下で実字幕分布から標準ガウス分布への分布を学習するために,クロスモーダル特徴を条件とした雑音予測器を構築する。
テスト段階では、よく訓練されたノイズ予測器が分布の平均値を推定し、段階的に変化キャプションを生成する。
論文 参考訳(メタデータ) (2024-05-21T15:44:31Z) - Diffusion Models With Learned Adaptive Noise [12.530583016267768]
本稿では,拡散過程がデータから学べるかどうかを考察する。
広く信じられている仮定は、ELBOはノイズプロセスに不変であるということである。
画像間で異なる速度でノイズを印加する学習拡散過程であるMULANを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:00:16Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Representing Noisy Image Without Denoising [91.73819173191076]
ラドン空間におけるフラクショナルオーダーモーメント(FMR)は、ノイズの多い画像から直接ロバストな表現を引き出すように設計されている。
従来の整数順序法とは異なり、我々の研究は特別な場合のような古典的手法を取り入れたより汎用的な設計である。
論文 参考訳(メタデータ) (2023-01-18T10:13:29Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。