Fugu-MT 論文翻訳(概要): ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance

論文の概要: ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance

arxiv url: http://arxiv.org/abs/2406.16476v1
Date: Mon, 24 Jun 2024 09:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:33:48.936556
Title: ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance
Title（参考訳）: ResMaster: 構造的および微細な誘導による高分解能画像生成をマスターする
Authors: Shuwei Shi, Wenbo Li, Yuechen Zhang, Jingwen He, Biao Gong, Yinqiang Zheng,
Abstract要約: ResMasterは、解像度制限を超えて高品質な画像を生成するために、解像度制限付き拡散モデルに権限を与える、トレーニング不要の方法である。パッチ・バイ・パッチで高解像度画像を作成するための構造的かつきめ細かいガイダンスを提供する。実験では、ResMasterが高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。
参考スコア（独自算出の注目度）: 46.64836025290448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models excel at producing high-quality images; however, scaling to higher resolutions, such as 4K, often results in over-smoothed content, structural distortions, and repetitive patterns. To this end, we introduce ResMaster, a novel, training-free method that empowers resolution-limited diffusion models to generate high-quality images beyond resolution restrictions. Specifically, ResMaster leverages a low-resolution reference image created by a pre-trained diffusion model to provide structural and fine-grained guidance for crafting high-resolution images on a patch-by-patch basis. To ensure a coherent global structure, ResMaster meticulously aligns the low-frequency components of high-resolution patches with the low-resolution reference at each denoising step. For fine-grained guidance, tailored image prompts based on the low-resolution reference and enriched textual prompts produced by a vision-language model are incorporated. This approach could significantly mitigate local pattern distortions and improve detail refinement. Extensive experiments validate that ResMaster sets a new benchmark for high-resolution image generation and demonstrates promising efficiency. The project page is https://shuweis.github.io/ResMaster .
Abstract（参考訳）: 拡散モデルは高品質な画像を生成するのに優れているが、4Kのような高解像度へのスケーリングは、しばしば過度に滑らかなコンテンツ、構造的歪み、繰り返しパターンをもたらす。この目的のために,ResMasterを導入した。ResMasterは,解像度制限を超えた高品質な画像を生成するために,解像度制限付き拡散モデルを実現する。具体的には、ResMasterは、事前訓練された拡散モデルによって作成された低解像度の参照画像を利用して、パッチ・バイ・パッチベースで高解像度の画像を作成するための構造的かつきめ細かなガイダンスを提供する。コヒーレントなグローバル構造を確保するため、ResMasterは高分解能パッチの低周波成分を各復調ステップで低分解能参照と慎重に整列する。微粒化誘導には、低解像度参照に基づく調整された画像プロンプトと、視覚言語モデルによって生成されたリッチテキストプロンプトが組み込まれている。このアプローチは、局所的なパターンの歪みを著しく軽減し、詳細化を改善する。大規模な実験により、ResMasterは高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。プロジェクトページはhttps://shuweis.github.io/ResMasterです。

関連論文リスト

Directing Mamba to Complex Textures: An Efficient Texture-Aware State Space Model for Image Restoration [75.51789992466183]
TAMAMbaIRは画像テクスチャの達成と性能と効率のトレードオフを同時に知覚する。画像超解像, デラリニング, 低照度画像強調のためのベンチマーク実験により, TAMAMbaIRは高い効率で最先端の性能を達成できることを示した。
論文参考訳（メタデータ） (2025-01-27T23:53:49Z)
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion [50.43304425256732]
FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
論文参考訳（メタデータ） (2024-12-12T18:59:59Z)
High-Resolution Be Aware! Improving the Self-Supervised Real-World Super-Resolution [37.546746047196486]
地平線画像は現実の環境では利用できないため、自己教師型学習は超高解像度には不可欠である。既存の方法は、擬似ペアを作成したり、低分解能再構成目標を強制することによって、低分解能画像から自己監督を導出する。本稿では,高解像度画像の認識を強化し,自己監督された現実世界の超解像を改善する。
論文参考訳（メタデータ） (2024-11-25T08:13:32Z)
Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation [12.588962705218103]
既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介した。勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
論文参考訳（メタデータ） (2024-10-24T15:18:51Z)
HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。階層的なプロンプトはグローバルとローカルの両方のガイダンスを提供する生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文参考訳（メタデータ） (2024-09-04T17:58:08Z)
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文参考訳（メタデータ） (2024-07-04T05:01:10Z)
UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文参考訳（メタデータ） (2024-07-02T11:02:19Z)
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:33Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-09-30T14:58:03Z)
Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文参考訳（メタデータ） (2020-05-12T09:55:53Z)
Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文参考訳（メタデータ） (2020-03-02T13:28:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。