論文の概要: HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.14091v3
- Date: Mon, 18 Mar 2024 16:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:51:29.404901
- Title: HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
- Title(参考訳): HD-Painter:拡散モデルによる高分解能・高感度テキストガイド画像
- Authors: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi,
- Abstract要約: HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。
そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。
実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
- 参考スコア(独自算出の注目度): 59.01600111737628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, we introduce HD-Painter, a training free approach that accurately follows prompts and coherently scales to high resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information resulting in better text aligned generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into the general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches quantitatively and qualitatively across multiple metrics and a user study. Code is publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルが前例のない成功を収めたことから, テキスト誘導画像のインペイント化の進展は, 極めて現実的で視覚的にも妥当な結果をもたらしている。
しかし、現在のテキスト・ツー・イメージ・インペインティングモデルにおいて、特にユーザプロンプトとインペインティング領域の整合性の向上や高解像度インペインティングの実施において、大きな可能性を秘めている。
そこで我々は,HD-Painterを導入し,プロンプトを正確に追従し,高分解能画像インパインティングにコヒーレントにスケールする訓練自由アプローチを提案する。
そこで本研究では,Pmpt-Aware Introverted Attention (PAIntA) レイヤを設計し,より優れたテキスト・アライメント・ジェネレーションを実現することで自己注意スコアを向上させる。
さらに迅速なコヒーレンスを改善するために,ポストホックサンプリング戦略をDDIMの一般的な形式にシームレスに統合し,非分布潜時シフトを防止するためのRASG(Reweighting Attention Score Guidance)機構を導入する。
さらに、HD-Painterは、インペイント用にカスタマイズされた特殊な超解像技術を導入し、最大2K解像度の画像の欠落した領域の完成を可能にすることで、より大きなスケールへの拡張を可能にする。
実験の結果,HD-Painterは既存の最先端アプローチを,複数のメトリクスとユーザスタディで定量的かつ質的に超越していることがわかった。
コードは、https://github.com/Picsart-AI-Research/HD-Painterで公開されている。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - MVIP-NeRF: Multi-view 3D Inpainting on NeRF Scenes via Diffusion Prior [65.05773512126089]
露光RGBと深度2Dの塗布監督を基盤としたNeRF塗布法は,その基礎となる2D塗布能力によって本質的に制限されている。
我々は,NeRF塗装における拡散先行の可能性を生かし,外観面と幾何学面の両方に対処するMVIP-NeRFを提案する。
実験の結果,従来のNeRF塗装法よりも外観や形状の回復性が良好であった。
論文 参考訳(メタデータ) (2024-05-05T09:04:42Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Segmentation-Based Parametric Painting [22.967620358813214]
本研究では,人間のような質とスタイルのバリエーションを持つ大規模で高忠実な絵画の作成を容易にする,新しい画像から絵画へのアプローチを提案する。
我々は,人間の絵画戦略に触発されたセグメンテーションに基づく絵画プロセスとダイナミックアテンションマップアプローチを導入する。
最適化されたバッチ処理とパッチベースの損失フレームワークは、大きなキャンバスの効率的な処理を可能にします。
論文 参考訳(メタデータ) (2023-11-24T04:15:10Z) - PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文 参考訳(メタデータ) (2023-08-09T18:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。