論文の概要: Mask-ControlNet: Higher-Quality Image Generation with An Additional Mask Prompt
- arxiv url: http://arxiv.org/abs/2404.05331v1
- Date: Mon, 8 Apr 2024 09:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:54:22.280409
- Title: Mask-ControlNet: Higher-Quality Image Generation with An Additional Mask Prompt
- Title(参考訳): Mask-ControlNet: Mask Promptを追加して高品質な画像生成
- Authors: Zhiqi Huang, Huixin Xiong, Haoyu Wang, Longguang Wang, Zhiheng Li,
- Abstract要約: マスクプロンプトを導入し,Mask-ControlNetというフレームワークを開発した。
マスクは拡散モデルの制御性を高め、参照画像に対する高い忠実性を維持することを示す。
- 参考スコア(独自算出の注目度): 34.880386778058075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image generation has witnessed great progress, especially with the recent advancements in diffusion models. Since texts cannot provide detailed conditions like object appearance, reference images are usually leveraged for the control of objects in the generated images. However, existing methods still suffer limited accuracy when the relationship between the foreground and background is complicated. To address this issue, we develop a framework termed Mask-ControlNet by introducing an additional mask prompt. Specifically, we first employ large vision models to obtain masks to segment the objects of interest in the reference image. Then, the object images are employed as additional prompts to facilitate the diffusion model to better understand the relationship between foreground and background regions during image generation. Experiments show that the mask prompts enhance the controllability of the diffusion model to maintain higher fidelity to the reference image while achieving better image quality. Comparison with previous text-to-image generation methods demonstrates our method's superior quantitative and qualitative performance on the benchmark datasets.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションは特に近年の拡散モデルの発展で大きな進歩をみせている。
テキストはオブジェクトの外観のような詳細な条件を提供できないため、通常、参照画像は生成された画像内のオブジェクトを制御するために利用される。
しかし, 既存の手法では, 前景と背景の関係が複雑である場合, 精度が低い。
この問題に対処するため,マスクプロンプトを導入してMask-ControlNetというフレームワークを開発した。
具体的には、まず大きな視覚モデルを用いて、参照画像の関心対象を分割するマスクを得る。
次に、オブジェクトイメージを拡散モデルに付加的なプロンプトとして使用して、画像生成時の前景と背景領域の関係をよりよく理解する。
実験により, マスクは拡散モデルの制御性を向上し, 参照画像に対する高い忠実性を維持しつつ, 画質の向上を実現していることがわかった。
従来のテキスト・画像生成手法との比較により,ベンチマーク・データセットの定量的・定性的な性能が向上したことを示す。
関連論文リスト
- AccDiffusion: An Accurate Method for Higher-Resolution Image Generation [63.53163540340026]
AccDiffusionは、パッチワイドの高解像度画像生成をトレーニングなしで正確に行う方法である。
本稿では,異なるパッチに対する同一のテキストプロンプトが繰り返しオブジェクト生成を引き起こすことを明らかにする。
私たちのAccDiffusionは、初めて、バニラ画像認識プロンプトをパッチコンテンツ認識プロンプトのセットに分離することを提案しています。
論文 参考訳(メタデータ) (2024-07-15T14:06:29Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。