論文の概要: HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
- arxiv url: http://arxiv.org/abs/2409.02919v3
- Date: Mon, 9 Sep 2024 09:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:26:07.000748
- Title: HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
- Title(参考訳): HiPrompt: 階層型MLLMプロンプトを用いたチューニング不要な高分解能生成
- Authors: Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo,
- Abstract要約: HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
- 参考スコア(独自算出の注目度): 77.62320553269615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential for higher-resolution image generation using pretrained diffusion models is immense, yet these models often struggle with issues of object repetition and structural artifacts especially when scaling to 4K resolution and higher. We figure out that the problem is caused by that, a single prompt for the generation of multiple scales provides insufficient efficacy. In response, we propose HiPrompt, a new tuning-free solution that tackles the above problems by introducing hierarchical prompts. The hierarchical prompts offer both global and local guidance. Specifically, the global guidance comes from the user input that describes the overall content, while the local guidance utilizes patch-wise descriptions from MLLMs to elaborately guide the regional structure and texture generation. Furthermore, during the inverse denoising process, the generated noise is decomposed into low- and high-frequency spatial components. These components are conditioned on multiple prompt levels, including detailed patch-wise descriptions and broader image-level prompts, facilitating prompt-guided denoising under hierarchical semantic guidance. It further allows the generation to focus more on local spatial regions and ensures the generated images maintain coherent local and global semantics, structures, and textures with high definition. Extensive experiments demonstrate that HiPrompt outperforms state-of-the-art works in higher-resolution image generation, significantly reducing object repetition and enhancing structural quality.
- Abstract(参考訳): 事前訓練された拡散モデルを用いた高解像度画像生成の可能性は非常に大きいが、これらのモデルは、特に4K解像度以上へのスケーリングにおいて、オブジェクトの反復や構造的アーティファクトの問題に悩まされることが多い。
問題の原因は,複数の尺度を生成するための単一のプロンプトが不十分な有効性をもたらすことにある。
これに対し、階層的なプロンプトを導入して上記の問題に対処する、新しいチューニング不要なソリューションであるHiPromptを提案する。
階層的なプロンプトは、グローバルとローカルの両方のガイダンスを提供する。
具体的には、グローバルガイダンスは、全体の内容を記述するユーザ入力から導き、ローカルガイダンスは、MLLMからのパッチワイズ記述を利用して、地域構造とテクスチャ生成を精巧にガイドする。
さらに、逆復調過程において、生成した雑音を低周波及び高周波空間成分に分解する。
これらのコンポーネントは、パッチに関する詳細な記述やより広範な画像レベルのプロンプトなど、複数のプロンプトレベルに条件付けされている。
さらに、生成者は局所的な空間領域にもっと集中し、生成した画像が高定義で一貫性のある局所的および大域的意味論、構造、テクスチャを維持することを保証できる。
広汎な実験により、HiPromptは高解像度画像生成における最先端の作業より優れており、オブジェクトの反復が著しく減少し、構造的品質が向上することが示された。
関連論文リスト
- ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance [46.64836025290448]
ResMasterは、解像度制限を超えて高品質な画像を生成するために、解像度制限付き拡散モデルに権限を与える、トレーニング不要の方法である。
パッチ・バイ・パッチで高解像度画像を作成するための構造的かつきめ細かいガイダンスを提供する。
実験では、ResMasterが高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。
論文 参考訳(メタデータ) (2024-06-24T09:28:21Z) - GLoD: Composing Global Contexts and Local Details in Image Generation [0.0]
Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。
複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。
本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
論文 参考訳(メタデータ) (2024-04-23T18:39:57Z) - ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images [9.906943507715779]
テキストグラウンドドオブジェクト生成(TOG)と呼ばれる新しい画像編集シナリオを提案する。
本稿では,Swin-Transformerをベースとした汎用フレームワークST-LDMを提案する。
本モデルでは,拡散モデル固有の生成能力を保ちながら,注意機構の局所化を促進する。
論文 参考訳(メタデータ) (2024-03-15T04:02:31Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - GIU-GANs: Global Information Utilization for Generative Adversarial
Networks [3.3945834638760948]
本稿では,Involution Generative Adversarial Networks (GIU-GANs) と呼ばれる新しいGANを提案する。
GIU-GANは、Squeeze-and-Excitation Networks (SENet)とInvolutionを統合したGlobal Information utilization (GIU)モジュールと呼ばれる新しいモジュールを利用している。
バッチ正規化(BN)は、ジェネレータがサンプリングしたノイズ間の表現差を必然的に無視し、生成した画質を劣化させる。
論文 参考訳(メタデータ) (2022-01-25T17:17:15Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。