論文の概要: FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
- arxiv url: http://arxiv.org/abs/2412.09626v1
- Date: Thu, 12 Dec 2024 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:02.908978
- Title: FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
- Title(参考訳): FreeScale: チューニング不要のスケールフュージョンによる拡散モデルの解決
- Authors: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu,
- Abstract要約: FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。
画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
- 参考スコア(独自算出の注目度): 50.43304425256732
- License:
- Abstract: Visual diffusion models achieve remarkable progress, yet they are typically trained at limited resolutions due to the lack of high-resolution data and constrained computation resources, hampering their ability to generate high-fidelity images or videos at higher resolutions. Recent efforts have explored tuning-free strategies to exhibit the untapped potential higher-resolution visual generation of pre-trained models. However, these methods are still prone to producing low-quality visual content with repetitive patterns. The key obstacle lies in the inevitable increase in high-frequency information when the model generates visual content exceeding its training resolution, leading to undesirable repetitive patterns deriving from the accumulated errors. To tackle this challenge, we propose FreeScale, a tuning-free inference paradigm to enable higher-resolution visual generation via scale fusion. Specifically, FreeScale processes information from different receptive scales and then fuses it by extracting desired frequency components. Extensive experiments validate the superiority of our paradigm in extending the capabilities of higher-resolution visual generation for both image and video models. Notably, compared with the previous best-performing method, FreeScale unlocks the generation of 8k-resolution images for the first time.
- Abstract(参考訳): 視覚拡散モデルは目覚ましい進歩を遂げるが、通常、高解像度のデータと制約された計算資源の不足のために限られた解像度で訓練され、高解像度の画像やビデオを高解像度で生成する能力を妨げている。
最近の研究は、未解決の事前学習モデルの高解像度視覚生成を示すためのチューニングフリー戦略について検討している。
しかし、これらの手法は繰り返しパターンで低品質の視覚コンテンツを制作する傾向にある。
重要な障害は、トレーニングの解像度を超える視覚的コンテンツを生成するモデルが、蓄積されたエラーから引き起こされる望ましくない反復パターンをもたらすとき、高周波情報の必然的に増加することである。
この課題に対処するために,スケール融合による高解像度視覚生成を実現するためのチューニングフリー推論パラダイムであるFreeScaleを提案する。
具体的には、FreeScaleは異なる受信スケールから情報を処理し、望ましい周波数成分を抽出することでそれを融合する。
画像モデルとビデオモデルの両方において、高解像度の視覚生成能力を拡張する上で、我々のパラダイムの優位性を検証する。
特に、以前のベストパフォーマンスの手法と比較して、FreeScaleは初めて8k解像度の画像を生成する。
関連論文リスト
- DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。