Fugu-MT 論文翻訳(概要): Dimensionality-Varying Diffusion Process

論文の概要: Dimensionality-Varying Diffusion Process

arxiv url: http://arxiv.org/abs/2211.16032v1
Date: Tue, 29 Nov 2022 09:05:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 15:18:20.563318
Title: Dimensionality-Varying Diffusion Process
Title（参考訳）: 次元変化拡散過程
Authors: Han Zhang, Ruili Feng, Zhantao Yang, Lianghua Huang, Yu Liu, Yifei Zhang, Yujun Shen, Deli Zhao, Jingren Zhou, Fan Cheng
Abstract要約: 拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。信号分解による前方拡散過程の理論的一般化を行う。 FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
参考スコア（独自算出の注目度）: 52.52681373641533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models, which learn to reverse a signal destruction process to generate new data, typically require the signal at each step to have the same dimension. We argue that, considering the spatial redundancy in image signals, there is no need to maintain a high dimensionality in the evolution process, especially in the early generation phase. To this end, we make a theoretical generalization of the forward diffusion process via signal decomposition. Concretely, we manage to decompose an image into multiple orthogonal components and control the attenuation of each component when perturbing the image. That way, along with the noise strength increasing, we are able to diminish those inconsequential components and thus use a lower-dimensional signal to represent the source, barely losing information. Such a reformulation allows to vary dimensions in both training and inference of diffusion models. Extensive experiments on a range of datasets suggest that our approach substantially reduces the computational cost and achieves on-par or even better synthesis performance compared to baseline methods. We also show that our strategy facilitates high-resolution image synthesis and improves FID of diffusion model trained on FFHQ at $1024\times1024$ resolution from 52.40 to 10.46. Code and models will be made publicly available.
Abstract（参考訳）: 拡散モデルは、信号破壊過程を逆転して新しいデータを生成することを学習するが、通常、各ステップで同じ次元の信号を必要とする。我々は,画像信号の空間的冗長性を考慮すると,特に初期発生段階において,進化過程の高次元性を維持する必要はないと主張する。この目的のために,信号分解による前方拡散過程の理論的一般化を行う。具体的には、画像を複数の直交成分に分解し、画像を摂動する際に各成分の減衰を制御する。このようにして、ノイズ強度の増大とともに、これらの不連続成分を減らし、低次元信号を用いて音源を表現し、ほとんど情報を失う。このような再構成は拡散モデルのトレーニングと推論の両方において次元を変えることができる。一連のデータセットに対する大規模な実験により,本手法は計算コストを大幅に削減し,ベースライン法に比べてオンパーあるいはさらに優れた合成性能を実現することが示唆された。また,この戦略は高分解能画像合成を促進し,FFHQで訓練された拡散モデルのFIDを52.40から10.46までの1024\times1024$解像度で改善することを示す。コードとモデルは公開される予定だ。

関連論文リスト

Physics-guided and fabrication-aware inverse design of photonic devices using diffusion models [43.51581973358462]
本稿では,拡散モデルのサンプリングプロセスに随伴勾配感度を統合する物理誘導フレームワークであるAdjointDiffusionを提案する。提案手法は, 効率と製造性の両方において, 最先端の非線形勾配法より一貫して優れる。
論文参考訳（メタデータ） (2025-04-23T19:54:33Z)
MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [27.749096921628457]
本稿では,階層的な視覚表現を生成するマルチスケール拡散フレームワークを提案する。提案手法は,ImageNet 256x256ベンチマークにおいて2.2のFIDと255.4のISを実現し,ベースライン法と比較して計算コストを50%削減する。
論文参考訳（メタデータ） (2025-01-23T03:18:23Z)
Edge-preserving noise for diffusion models [4.435514696080208]
本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
論文参考訳（メタデータ） (2024-10-02T13:29:52Z)
Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。当社のアプローチでは,完全な拡散生成プロセスの10%未満の実行が可能であり,拡散モデルにアーキテクチャ的な変更は不要である。
論文参考訳（メタデータ） (2024-04-12T16:23:42Z)
Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文参考訳（メタデータ） (2024-03-14T12:58:28Z)
Boosting Latent Diffusion with Flow Matching [22.68317748373856]
フローマッチングは、高速なトレーニングと推論の相補的な特徴から魅力的なアプローチであるが、多種多様な合成は少ない。凍結拡散モデルと畳み込みデコーダのフローマッチングを導入することにより,高分解能画像合成が可能となることを示す。最先端の高解像度画像合成は、最小の計算コストで10242ドルのピクセルで達成される。
論文参考訳（メタデータ） (2023-12-12T15:30:24Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文参考訳（メタデータ） (2021-12-20T18:55:25Z)
Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文参考訳（メタデータ） (2021-11-27T12:12:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。