論文の概要: Creatively Upscaling Images with Global-Regional Priors
- arxiv url: http://arxiv.org/abs/2505.16976v1
- Date: Thu, 22 May 2025 17:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.522292
- Title: Creatively Upscaling Images with Global-Regional Priors
- Title(参考訳): Global-Regional Priors を用いたクリエイティヴ・アップスケーリング
- Authors: Yurui Qian, Qi Cai, Yingwei Pan, Ting Yao, Tao Mei,
- Abstract要約: C-Upscaleは、チューニング不要なイメージアップスケーリングの新しいレシピである。
これは、与えられたグローバルプロンプトと推定された地域プロンプトから派生した、グローバル・リージョンの先例に基づいている。
より高解像度で、より高画質で、より創造的な地域細部を持つ超高解像度画像を生成する。
- 参考スコア(独自算出の注目度): 98.24171965992916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary diffusion models show remarkable capability in text-to-image generation, while still being limited to restricted resolutions (e.g., 1,024 X 1,024). Recent advances enable tuning-free higher-resolution image generation by recycling pre-trained diffusion models and extending them via regional denoising or dilated sampling/convolutions. However, these models struggle to simultaneously preserve global semantic structure and produce creative regional details in higher-resolution images. To address this, we present C-Upscale, a new recipe of tuning-free image upscaling that pivots on global-regional priors derived from given global prompt and estimated regional prompts via Multimodal LLM. Technically, the low-frequency component of low-resolution image is recognized as global structure prior to encourage global semantic consistency in high-resolution generation. Next, we perform regional attention control to screen cross-attention between global prompt and each region during regional denoising, leading to regional attention prior that alleviates object repetition issue. The estimated regional prompts containing rich descriptive details further act as regional semantic prior to fuel the creativity of regional detail generation. Both quantitative and qualitative evaluations demonstrate that our C-Upscale manages to generate ultra-high-resolution images (e.g., 4,096 X 4,096 and 8,192 X 8,192) with higher visual fidelity and more creative regional details.
- Abstract(参考訳): 現代拡散モデルは、テキスト・画像生成において顕著な能力を示す一方で、制限された解像度(例:1,024 X 1,024)に制限されている。
近年の進歩は、事前学習した拡散モデルをリサイクルし、それらを局所的な復調または拡張サンプリング/畳み込みによって拡張することで、チューニング不要な高解像度画像生成を可能にする。
しかし、これらのモデルは、グローバルな意味構造を同時に保存し、高解像度の画像で創造的な地域的詳細を生成するのに苦労している。
そこで我々はC-Upscaleを提案する。C-Upscaleは、マルチモーダルLSMを通して、与えられたグローバルプロンプトと推定された地域プロンプトから得られるグローバルな地域プリエントをピボットする、チューニング不要なイメージアップスケーリングの新しいレシピである。
技術的には、低分解能画像の低周波成分は、高分解能生成における大域的意味一貫性を促進する前にグローバル構造として認識される。
次に,地域認知において,グローバルプロンプトと各地域間のクロスアテンションを遮蔽する領域アテンション制御を行い,対象の反復問題を緩和する以前に地域アテンションを誘導する。
豊かな記述の詳細を含む推定された地域的プロンプトは、地域的詳細生成の創造性を促進する前に、さらに地域的意味として機能する。
定量的および定性的な評価は、我々のC-Upscaleが高解像度画像(例:4,096 X 4,096, 8,192 X 8,192)を高画質で、より創造的な地域的詳細で生成できることを示します。
関連論文リスト
- Can Location Embeddings Enhance Super-Resolution of Satellite Imagery? [2.3020018305241337]
センチネル2のような公共に利用可能な衛星画像は、リモートセンシングタスクの正確な分析に必要な空間解像度を欠いていることが多い。
位置情報の埋め込みを通じて地理的コンテキストを組み込むことで一般化を促進する新しい超解像フレームワークを提案する。
本研究では,建築セグメント化作業における手法の有効性を実証し,最先端の手法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-01-27T08:16:54Z) - Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement [40.94329069897935]
本稿では,正確なレイアウト構成のための地域記述を前提とした地域認識テキスト・画像生成手法であるRAGを提案する。
RAGは従来のチューニング不要手法よりも属性バインディングやオブジェクト関係よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2024-11-10T18:45:41Z) - HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文 参考訳(メタデータ) (2024-09-04T17:58:08Z) - Zero-shot Text-guided Infinite Image Synthesis with LLM guidance [2.531998650341267]
解像度とコンテキストの多様性を備えたテキストイメージのペアデータセットが不足している。
テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。
本稿では,大域的コヒーレンスと局所的文脈理解の両面において,Large Language Models (LLM) を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T15:10:01Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。