論文の概要: HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.14091v3
- Date: Mon, 18 Mar 2024 16:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:51:29.404901
- Title: HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
- Title(参考訳): HD-Painter:拡散モデルによる高分解能・高感度テキストガイド画像
- Authors: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi,
- Abstract要約: HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。
そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。
実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
- 参考スコア(独自算出の注目度): 59.01600111737628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, we introduce HD-Painter, a training free approach that accurately follows prompts and coherently scales to high resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information resulting in better text aligned generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into the general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches quantitatively and qualitatively across multiple metrics and a user study. Code is publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルが前例のない成功を収めたことから, テキスト誘導画像のインペイント化の進展は, 極めて現実的で視覚的にも妥当な結果をもたらしている。
しかし、現在のテキスト・ツー・イメージ・インペインティングモデルにおいて、特にユーザプロンプトとインペインティング領域の整合性の向上や高解像度インペインティングの実施において、大きな可能性を秘めている。
そこで我々は,HD-Painterを導入し,プロンプトを正確に追従し,高分解能画像インパインティングにコヒーレントにスケールする訓練自由アプローチを提案する。
そこで本研究では,Pmpt-Aware Introverted Attention (PAIntA) レイヤを設計し,より優れたテキスト・アライメント・ジェネレーションを実現することで自己注意スコアを向上させる。
さらに迅速なコヒーレンスを改善するために,ポストホックサンプリング戦略をDDIMの一般的な形式にシームレスに統合し,非分布潜時シフトを防止するためのRASG(Reweighting Attention Score Guidance)機構を導入する。
さらに、HD-Painterは、インペイント用にカスタマイズされた特殊な超解像技術を導入し、最大2K解像度の画像の欠落した領域の完成を可能にすることで、より大きなスケールへの拡張を可能にする。
実験の結果,HD-Painterは既存の最先端アプローチを,複数のメトリクスとユーザスタディで定量的かつ質的に超越していることがわかった。
コードは、https://github.com/Picsart-AI-Research/HD-Painterで公開されている。
関連論文リスト
- MVIP-NeRF: Multi-view 3D Inpainting on NeRF Scenes via Diffusion Prior [65.05773512126089]
露光RGBと深度2Dの塗布監督を基盤としたNeRF塗布法は,その基礎となる2D塗布能力によって本質的に制限されている。
我々は,NeRF塗装における拡散先行の可能性を生かし,外観面と幾何学面の両方に対処するMVIP-NeRFを提案する。
実験の結果,従来のNeRF塗装法よりも外観や形状の回復性が良好であった。
論文 参考訳(メタデータ) (2024-05-05T09:04:42Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Continuous-Multiple Image Outpainting in One-Step via Positional Query
and A Diffusion-based Approach [104.2588068730834]
本稿では, 文献で未解決の2つの方向において, 画像出力の技術的フロンティアを推し進める。
トレーニング済みのバックボーンネットワークに依存しない手法を開発した。
提案手法(PQDiff)を公開ベンチマークで評価し,最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-28T13:00:38Z) - A Task is Worth One Word: Learning with Task Prompts for High-Quality
Versatile Image Inpainting [41.34541754387277]
両タスクで優れる最初の高品質で多用途なインペイントモデルであるPowerPaintを紹介します。
まず、学習可能なタスクプロンプトと調整された微調整戦略を導入する。
第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
論文 参考訳(メタデータ) (2023-12-06T16:34:46Z) - Segmentation-Based Parametric Painting [22.967620358813214]
本研究では,人間のような質とスタイルのバリエーションを持つ大規模で高忠実な絵画の作成を容易にする,新しい画像から絵画へのアプローチを提案する。
我々は,人間の絵画戦略に触発されたセグメンテーションに基づく絵画プロセスとダイナミックアテンションマップアプローチを導入する。
最適化されたバッチ処理とパッチベースの損失フレームワークは、大きなキャンバスの効率的な処理を可能にします。
論文 参考訳(メタデータ) (2023-11-24T04:15:10Z) - PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文 参考訳(メタデータ) (2023-08-09T18:41:11Z) - Perceptual Artifacts Localization for Inpainting [60.5659086595901]
そこで本研究では,知覚的アーティファクトの自動セグメンテーションの学習タスクを提案する。
データセット上で高度なセグメンテーションネットワークをトレーニングし、インペイントされた画像内のインペイントされたアーティファクトを確実にローカライズする。
また, 対象領域と対象領域全体との比率である知覚人工物比 (PAR) という新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-08-05T18:50:51Z) - Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting
and Beyond [136.18504104345453]
塗り絵と塗り絵の間に有意義な協調関係を持つキリン塗り絵の枠組みを提示する。
提案アルゴリズムは、オブジェクト検出、深さ推定、画像超解像などの他のパノラマ視覚タスクに効果的に拡張できる。
論文 参考訳(メタデータ) (2022-04-18T21:18:49Z) - Improve Deep Image Inpainting by Emphasizing the Complexity of Missing
Regions [20.245637164975594]
本稿では,古典的画像複雑性メトリクスの助けを借りて,ディープイメージのインペイントモデルを強化する。
学習手順におけるバッチ選択を導くために、不足複雑性と前方損失からなる知識支援指標を示す。
我々は,最近開発された様々なデータセットに対する画像インペイントモデルの改良を実験的に実証した。
論文 参考訳(メタデータ) (2022-02-13T09:14:52Z) - Deep Two-Stage High-Resolution Image Inpainting [0.0]
本稿では,任意の大きさの画像をペイントする問題を解決する手法を提案する。
そこで本稿では, 隣接画素からの情報を, 原像を4方向へ移動させることで利用することを提案する。
このアプローチは既存のインペイントモデルで動作可能で、再トレーニングを必要とせずにほぼ独立している。
論文 参考訳(メタデータ) (2021-04-27T20:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。