論文の概要: BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion
- arxiv url: http://arxiv.org/abs/2403.06976v1
- Date: Mon, 11 Mar 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:48:12.763977
- Title: BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion
- Title(参考訳): BrushNet: 2分岐拡散を分解したプラグ・アンド・プレイ画像の塗装モデル
- Authors: Xuan Ju, Xian Liu, Xintao Wang, Yuxuan Bian, Ying Shan, Qiang Xu
- Abstract要約: BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 61.90969199199739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting, the process of restoring corrupted images, has seen
significant advancements with the advent of diffusion models (DMs). Despite
these advancements, current DM adaptations for inpainting, which involve
modifications to the sampling strategy or the development of
inpainting-specific DMs, frequently suffer from semantic inconsistencies and
reduced image quality. Addressing these challenges, our work introduces a novel
paradigm: the division of masked image features and noisy latent into separate
branches. This division dramatically diminishes the model's learning load,
facilitating a nuanced incorporation of essential masked image information in a
hierarchical fashion. Herein, we present BrushNet, a novel plug-and-play
dual-branch model engineered to embed pixel-level masked image features into
any pre-trained DM, guaranteeing coherent and enhanced image inpainting
outcomes. Additionally, we introduce BrushData and BrushBench to facilitate
segmentation-based inpainting training and performance assessment. Our
extensive experimental analysis demonstrates BrushNet's superior performance
over existing models across seven key metrics, including image quality, mask
region preservation, and textual coherence.
- Abstract(参考訳): 劣化した画像の復元過程である画像の塗布は拡散モデル(DM)の出現とともに大きな進歩を遂げた。
これらの進歩にもかかわらず、現在のインパインティングのDM適応はサンプリング戦略の変更やインパインティング固有のDMの開発を含んでおり、しばしば意味的不整合と画像品質の低下に悩まされている。
マスクされた画像の特徴とノイズの多い潜伏を別々の枝に分割するという新しいパラダイムを導入しました。
この分割はモデルの学習負荷を劇的に減少させ、階層的な方法で必須マスキング画像情報のニュアンス化を促進する。
本稿では,画素レベルのマスク付き画像特徴を事前訓練されたDMに埋め込むために設計された,新しいプラグアンドプレイデュアルブランチモデルであるBrushNetについて述べる。
さらに,BushData と BrushBench を導入し,セグメンテーションベースのインペイントトレーニングと性能評価を容易にする。
画像品質,マスク領域の保存,テキストのコヒーレンスといった7つの主要な指標において,既存のモデルよりもブラッシングネットの優れた性能を示す。
関連論文リスト
- Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting [0.17975553762582286]
現在の画像縫合法は、不均一な色相や大きな視差のような挑戦的なシナリオにおいて顕著な縫い目を生み出す。
本稿では, 画像の融合と整形を基準ベースインペイントモデルとして再構成する参照駆動型インペイント・スティッチャ (RDIStitcher) を提案する。
本稿では,Multimodal Large Language Models (MLLM) を用いた画像品質評価手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T16:05:01Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration [17.47612023350466]
マルチモーダルなインサイトを持つ拡散型復元法であるMRIRを提案する。
テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。
視覚レベルでは、主にピクセルレベルの制御に焦点を合わせ、Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - GRIG: Few-Shot Generative Residual Image Inpainting [27.252855062283825]
そこで本研究では,高画質な残像塗装法を新たに提案する。
中心となる考え方は、特徴抽出のために畳み込みニューラルネットワーク(CNN)を組み込んだ反復的残留推論手法を提案することである。
また, 忠実なテクスチャと詳細な外観を創出するための, フォージェリーパッチ対逆訓練戦略を提案する。
論文 参考訳(メタデータ) (2023-04-24T12:19:06Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。