論文の概要: DFU: scale-robust diffusion model for zero-shot super-resolution image
generation
- arxiv url: http://arxiv.org/abs/2401.06144v2
- Date: Mon, 22 Jan 2024 17:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:31:53.668140
- Title: DFU: scale-robust diffusion model for zero-shot super-resolution image
generation
- Title(参考訳): DFU:ゼロショット超解像生成のためのスケールロバスト拡散モデル
- Authors: Alex Havrilla, Kevin Rojas, Wenjing Liao, Molei Tao
- Abstract要約: 複数の解像度で空間情報とスペクトル情報を組み合わせることでスコア演算子を近似する新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
本稿では,FIDをFFHQの最大トレーニング解像度の1.66倍の1.66倍の1.3倍の精度で達成し,ゼロショット超解像画像生成能力をさらに高めるための微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 15.689418447376587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion generative models have achieved remarkable success in generating
images with a fixed resolution. However, existing models have limited ability
to generalize to different resolutions when training data at those resolutions
are not available. Leveraging techniques from operator learning, we present a
novel deep-learning architecture, Dual-FNO UNet (DFU), which approximates the
score operator by combining both spatial and spectral information at multiple
resolutions. Comparisons of DFU to baselines demonstrate its scalability: 1)
simultaneously training on multiple resolutions improves FID over training at
any single fixed resolution; 2) DFU generalizes beyond its training
resolutions, allowing for coherent, high-fidelity generation at
higher-resolutions with the same model, i.e. zero-shot super-resolution
image-generation; 3) we propose a fine-tuning strategy to further enhance the
zero-shot super-resolution image-generation capability of our model, leading to
a FID of 11.3 at 1.66 times the maximum training resolution on FFHQ, which no
other method can come close to achieving.
- Abstract(参考訳): 拡散生成モデルは、固定解像度で画像を生成することに成功している。
しかし、既存のモデルは、これらの解像度でデータをトレーニングできない場合に、異なる解像度に一般化する能力に制限がある。
演算子学習の手法を活用し,複数の解像度で空間情報とスペクトル情報を組み合わせることで,楽譜演算子を近似した新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
DFUとベースラインの比較はスケーラビリティを示している。
1) 多重解像度の同時訓練は、任意の固定解像度でのトレーニングよりもFIDを改善する。
2)DFUは、トレーニング解像度を超えて一般化し、同じモデルで高解像度でコヒーレントで高忠実な生成を可能にする。
3)我々のモデルのゼロショット超解像度画像生成能力をさらに向上させるための微調整戦略を提案し,ffhqの最大トレーニング解像度の1.66倍の11.3倍のfidを実現した。
関連論文リスト
- Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural
Operator [4.48473804240016]
フーリエニューラル演算子(FNO)に基づく画像解像度のトレーニングに頑健な3次元セグメンテーションモデルFNOSeg3Dを導入する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T19:58:36Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。