論文の概要: HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image
Inpainting with Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.14091v2
- Date: Mon, 25 Dec 2023 20:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:38:10.918575
- Title: HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image
Inpainting with Diffusion Models
- Title(参考訳): HD-Painter:拡散モデルによる高分解能・高速テキストガイド画像
- Authors: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang,
Shant Navasardyan, Humphrey Shi
- Abstract要約: HD-Painterはトレーニング不要のアプローチで、プロンプトとコヒーレントなスケールで高解像度画像のインペイントを行う。
本稿では,Prompt-Aware Introverted Attention (PAIntA) レイヤについて紹介する。
また,ポストホックサンプリング戦略をDDIMの一般的な形式にシームレスに統合するRASG(Reweighting Attention Score Guidance)機構を導入する。
- 参考スコア(独自算出の注目度): 62.53428849502191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルが前例のない成功を収めたことから, テキスト誘導画像のインペイント化の進展は, 極めて現実的で視覚的にも妥当な結果をもたらしている。
しかし、現在のテキストから画像へのインペインティングモデルでは、特に、インペイント領域とユーザのプロンプトの整合性が向上し、高解像度インペインティングの実行が改善される可能性がある。
そこで本稿では,hd-painterについて紹介する。hd-painterは,高分解能画像インパインティングに対して,プロンプトとコヒーレントなスケールで正確に追従する,完全にトレーニング不要なアプローチである。
この目的のために,情報提供により自己注意スコアを向上し,テキストアライメントを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計する。
さらに迅速なコヒーレンスを改善するために,ポストホックサンプリング戦略をDDIMの汎用形式にシームレスに統合し,分散遅延シフトを防止するためのRASG(Reweighting Attention Score Guidance)機構を導入する。
さらに、HD-Painterは、インペイント用にカスタマイズされた特殊な超解像技術を導入し、最大2K解像度の画像の欠落した領域の完成を可能にする。
実験の結果,HD-Painterは既存の最先端アプローチを質的かつ定量的に上回り,61.4%と51.9%の精度向上を実現していることがわかった。
コードについては、https://github.com/Picsart-AI-Research/HD-Painterで公開します。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - MVIP-NeRF: Multi-view 3D Inpainting on NeRF Scenes via Diffusion Prior [65.05773512126089]
露光RGBと深度2Dの塗布監督を基盤としたNeRF塗布法は,その基礎となる2D塗布能力によって本質的に制限されている。
我々は,NeRF塗装における拡散先行の可能性を生かし,外観面と幾何学面の両方に対処するMVIP-NeRFを提案する。
実験の結果,従来のNeRF塗装法よりも外観や形状の回復性が良好であった。
論文 参考訳(メタデータ) (2024-05-05T09:04:42Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Segmentation-Based Parametric Painting [22.967620358813214]
本研究では,人間のような質とスタイルのバリエーションを持つ大規模で高忠実な絵画の作成を容易にする,新しい画像から絵画へのアプローチを提案する。
我々は,人間の絵画戦略に触発されたセグメンテーションに基づく絵画プロセスとダイナミックアテンションマップアプローチを導入する。
最適化されたバッチ処理とパッチベースの損失フレームワークは、大きなキャンバスの効率的な処理を可能にします。
論文 参考訳(メタデータ) (2023-11-24T04:15:10Z) - PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文 参考訳(メタデータ) (2023-08-09T18:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。