論文の概要: ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance
- arxiv url: http://arxiv.org/abs/2406.16476v1
- Date: Mon, 24 Jun 2024 09:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:33:48.936556
- Title: ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance
- Title(参考訳): ResMaster: 構造的および微細な誘導による高分解能画像生成をマスターする
- Authors: Shuwei Shi, Wenbo Li, Yuechen Zhang, Jingwen He, Biao Gong, Yinqiang Zheng,
- Abstract要約: ResMasterは、解像度制限を超えて高品質な画像を生成するために、解像度制限付き拡散モデルに権限を与える、トレーニング不要の方法である。
パッチ・バイ・パッチで高解像度画像を作成するための構造的かつきめ細かいガイダンスを提供する。
実験では、ResMasterが高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。
- 参考スコア(独自算出の注目度): 46.64836025290448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models excel at producing high-quality images; however, scaling to higher resolutions, such as 4K, often results in over-smoothed content, structural distortions, and repetitive patterns. To this end, we introduce ResMaster, a novel, training-free method that empowers resolution-limited diffusion models to generate high-quality images beyond resolution restrictions. Specifically, ResMaster leverages a low-resolution reference image created by a pre-trained diffusion model to provide structural and fine-grained guidance for crafting high-resolution images on a patch-by-patch basis. To ensure a coherent global structure, ResMaster meticulously aligns the low-frequency components of high-resolution patches with the low-resolution reference at each denoising step. For fine-grained guidance, tailored image prompts based on the low-resolution reference and enriched textual prompts produced by a vision-language model are incorporated. This approach could significantly mitigate local pattern distortions and improve detail refinement. Extensive experiments validate that ResMaster sets a new benchmark for high-resolution image generation and demonstrates promising efficiency. The project page is https://shuweis.github.io/ResMaster .
- Abstract(参考訳): 拡散モデルは高品質な画像を生成するのに優れているが、4Kのような高解像度へのスケーリングは、しばしば過度に滑らかなコンテンツ、構造的歪み、繰り返しパターンをもたらす。
この目的のために,ResMasterを導入した。ResMasterは,解像度制限を超えた高品質な画像を生成するために,解像度制限付き拡散モデルを実現する。
具体的には、ResMasterは、事前訓練された拡散モデルによって作成された低解像度の参照画像を利用して、パッチ・バイ・パッチベースで高解像度の画像を作成するための構造的かつきめ細かなガイダンスを提供する。
コヒーレントなグローバル構造を確保するため、ResMasterは高分解能パッチの低周波成分を各復調ステップで低分解能参照と慎重に整列する。
微粒化誘導には、低解像度参照に基づく調整された画像プロンプトと、視覚言語モデルによって生成されたリッチテキストプロンプトが組み込まれている。
このアプローチは、局所的なパターンの歪みを著しく軽減し、詳細化を改善する。
大規模な実験により、ResMasterは高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。
プロジェクトページはhttps://shuweis.github.io/ResMasterです。
関連論文リスト
- Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation [12.588962705218103]
既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介した。
勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
論文 参考訳(メタデータ) (2024-10-24T15:18:51Z) - HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文 参考訳(メタデータ) (2024-09-04T17:58:08Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。
後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。
我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文 参考訳(メタデータ) (2024-07-02T11:02:19Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - A Generative Model for Hallucinating Diverse Versions of Super
Resolution Images [0.3222802562733786]
我々は、生成逆数モデルを用いて、同じ低解像度画像から異なる高解像度バージョンを得るという問題に取り組んでいる。
学習アプローチでは,高分解能画像の学習において,教師なしの保存と探索に高周波数を活用できる。
論文 参考訳(メタデータ) (2021-02-12T17:11:42Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。