論文の概要: DFU: scale-robust diffusion model for zero-shot super-resolution image
generation
- arxiv url: http://arxiv.org/abs/2401.06144v2
- Date: Mon, 22 Jan 2024 17:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:31:53.668140
- Title: DFU: scale-robust diffusion model for zero-shot super-resolution image
generation
- Title(参考訳): DFU:ゼロショット超解像生成のためのスケールロバスト拡散モデル
- Authors: Alex Havrilla, Kevin Rojas, Wenjing Liao, Molei Tao
- Abstract要約: 複数の解像度で空間情報とスペクトル情報を組み合わせることでスコア演算子を近似する新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
本稿では,FIDをFFHQの最大トレーニング解像度の1.66倍の1.66倍の1.3倍の精度で達成し,ゼロショット超解像画像生成能力をさらに高めるための微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 15.689418447376587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion generative models have achieved remarkable success in generating
images with a fixed resolution. However, existing models have limited ability
to generalize to different resolutions when training data at those resolutions
are not available. Leveraging techniques from operator learning, we present a
novel deep-learning architecture, Dual-FNO UNet (DFU), which approximates the
score operator by combining both spatial and spectral information at multiple
resolutions. Comparisons of DFU to baselines demonstrate its scalability: 1)
simultaneously training on multiple resolutions improves FID over training at
any single fixed resolution; 2) DFU generalizes beyond its training
resolutions, allowing for coherent, high-fidelity generation at
higher-resolutions with the same model, i.e. zero-shot super-resolution
image-generation; 3) we propose a fine-tuning strategy to further enhance the
zero-shot super-resolution image-generation capability of our model, leading to
a FID of 11.3 at 1.66 times the maximum training resolution on FFHQ, which no
other method can come close to achieving.
- Abstract(参考訳): 拡散生成モデルは、固定解像度で画像を生成することに成功している。
しかし、既存のモデルは、これらの解像度でデータをトレーニングできない場合に、異なる解像度に一般化する能力に制限がある。
演算子学習の手法を活用し,複数の解像度で空間情報とスペクトル情報を組み合わせることで,楽譜演算子を近似した新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
DFUとベースラインの比較はスケーラビリティを示している。
1) 多重解像度の同時訓練は、任意の固定解像度でのトレーニングよりもFIDを改善する。
2)DFUは、トレーニング解像度を超えて一般化し、同じモデルで高解像度でコヒーレントで高忠実な生成を可能にする。
3)我々のモデルのゼロショット超解像度画像生成能力をさらに向上させるための微調整戦略を提案し,ffhqの最大トレーニング解像度の1.66倍の11.3倍のfidを実現した。
関連論文リスト
- I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow [50.55228067778858]
Rectified Flow Transformer (RFT) は優れたトレーニングと推論の効率を提供する。
テキスト・ツー・イメージ RFT の解像度を最大化する I-Max フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:08:23Z) - Inverse design with conditional cascaded diffusion models [0.0]
随伴型設計最適化は通常計算コストが高く、それらのコストは分解能でスケールする。
我々は、条件付きカスケード拡散モデル(cCDM)の提案により、従来の生成モデルよりも拡散モデルの利用を拡大する。
本研究は,cCDMをcGANモデルと転写学習を比較した。
どちらのモデルも高分解能トレーニングデータを減らすことで性能が低下するが、cCDMは訓練データに制限がある場合、伝達学習を伴うcGANモデルよりも優れる。
論文 参考訳(メタデータ) (2024-08-16T04:54:09Z) - Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution [38.79439380482431]
実世界の超解像(RWSR)は低分解能入力における未知の劣化に直面している。
既存の手法では、学習インプットの複雑な合成拡張を通じて視覚一般モデルを学習することでこの問題にアプローチする。
実世界の劣化に対する教師なしRWSRに対処するための,新しい相互距離蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-10T01:46:40Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。