論文の概要: Spectral Collapse in Diffusion Inversion
- arxiv url: http://arxiv.org/abs/2602.13303v1
- Date: Mon, 09 Feb 2026 17:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.835656
- Title: Spectral Collapse in Diffusion Inversion
- Title(参考訳): 拡散インバージョンにおけるスペクトル崩壊
- Authors: Nicolas Bourriez, Alexandre Verine, Auguste Genovesio,
- Abstract要約: 条件拡散反転は、ソースドメインがターゲットドメインに比べてスペクトル的にスパースであるときに失敗する。
理論的ガウス雑音等級を強制するためにODEダイナミクスを補正する推定時間法であるオルソゴン可変誘導法(OVG)を提案する。
OVGは構造的忠実性を維持しながら、光現実的なテクスチャを効果的に復元する。
- 参考スコア(独自算出の注目度): 44.781674986581244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional diffusion inversion provides a powerful framework for unpaired image-to-image translation. However, we demonstrate through an extensive analysis that standard deterministic inversion (e.g. DDIM) fails when the source domain is spectrally sparse compared to the target domain (e.g., super-resolution, sketch-to-image). In these contexts, the recovered latent from the input does not follow the expected isotropic Gaussian distribution. Instead it exhibits a signal with lower frequencies, locking target sampling to oversmoothed and texture-poor generations. We term this phenomenon spectral collapse. We observe that stochastic alternatives attempting to restore the noise variance tend to break the semantic link to the input, leading to structural drift. To resolve this structure-texture trade-off, we propose Orthogonal Variance Guidance (OVG), an inference-time method that corrects the ODE dynamics to enforce the theoretical Gaussian noise magnitude within the null-space of the structural gradient. Extensive experiments on microscopy super-resolution (BBBC021) and sketch-to-image (Edges2Shoes) demonstrate that OVG effectively restores photorealistic textures while preserving structural fidelity.
- Abstract(参考訳): 条件拡散インバージョンは、未ペア画像から画像への変換のための強力なフレームワークを提供する。
しかし,本研究では,標準決定論的逆転(例:DDIM)が,対象領域(例:超解像,スケッチ・ツー・イメージ)と比較してスペクトル的にスパースである場合に失敗することを示す。
これらの文脈では、入力から回収された潜水剤は期待される等方的ガウス分布に従わない。
代わりに、低周波数の信号を表示し、ターゲットサンプリングを過度に平らにし、テクスチャを欠く世代にロックする。
この現象をスペクトル崩壊と呼ぶ。
雑音の分散を回復しようとする確率論的代替手段は、入力に対する意味的リンクを壊し、構造的ドリフトをもたらす傾向にある。
この構造とテクスチャのトレードオフを解決するために、構造勾配のヌル空間内で理論的ガウス雑音の大きさを強制するためにODE力学を補正するオルソゴン変数誘導法(OVG)を提案する。
顕微鏡超解像(BBBC021)とスケッチ・トゥ・イメージ(Edges2Shoes)の広範囲にわたる実験により、OVGは構造的忠実性を維持しながら、光現実的なテクスチャを効果的に復元することを示した。
関連論文リスト
- Breaking the Bottlenecks: Scalable Diffusion Models for 3D Molecular Generation [0.0]
拡散モデルは分子設計のための強力な生成モデルとして登場した。
彼らの使用は、長いサンプリング軌道、逆過程のばらつき、そして力学の認知における構造的認識の制限によって制限されている。
直接分極拡散モデル(英語版)は、逆MCMC更新を決定論的分極ステップに置き換えることでこれらの非効率性を緩和する。
論文 参考訳(メタデータ) (2026-01-13T20:09:44Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - There and Back Again: On the relation between Noise and Image Inversions in Diffusion Models [3.8384683391475556]
拡散モデルは新しいサンプルを生成するが、データを編集可能な機能にエンコードする低次元の潜在空間がない。
インバージョンベースの手法は、デノベーション軌道を逆転させ、画像を近似したスタートノイズに転送することでこの問題に対処する。
その結果,潜伏剤はスムーズな画像領域で予測される低ノイズの形で構造パターンを示すことがわかった。
論文 参考訳(メタデータ) (2024-10-31T00:30:35Z) - Spectrum Translation for Refinement of Image Generation (STIG) Based on
Contrastive Learning and Spectral Filter Profile [15.5188527312094]
生成した画像の周波数領域における相違を緩和する枠組みを提案する。
これは、コントラスト学習に基づく画像生成(STIG)の洗練のためのスペクトル変換によって実現される。
我々は,STIGの有効性を実証するために,8つのフェイク画像データセットと様々な最先端モデルにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-03-08T06:39:24Z) - Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View
Tomography [58.60249163402822]
未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。
提案したOMRはより堅牢で、従来の最先端のOMRアプローチよりも大幅に性能が向上している。
論文 参考訳(メタデータ) (2022-07-06T21:40:59Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z) - Hyperspectral Image Denoising with Partially Orthogonal Matrix Vector
Tensor Factorization [42.56231647066719]
ハイパースペクトル画像(HSI)は、スペクトルの余分な情報により、様々な用途の自然画像に対していくつかの利点がある。
買収の間、しばしばガウシアンノイズ、インパルスノイズ、期限、ストライプなどの厳しい騒音によって汚染される。
本研究では,スムーズかつロバストな低ランクテンソルリカバリというHSI復元手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T02:10:07Z) - Residual-Sparse Fuzzy $C$-Means Clustering Incorporating Morphological
Reconstruction and Wavelet frames [146.63177174491082]
Fuzzy $C$-Means (FCM)アルゴリズムは、形態的再構成操作とタイトウェーブレットフレーム変換を組み込んでいる。
特徴集合とその理想値の間の残差に対して$ell_0$正規化項を付与することにより、改良されたFCMアルゴリズムを提案する。
合成, 医用, カラー画像に対する実験結果から, 提案アルゴリズムは効率的かつ効率的であり, 他のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-14T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。