論文の概要: A Task is Worth One Word: Learning with Task Prompts for High-Quality
Versatile Image Inpainting
- arxiv url: http://arxiv.org/abs/2312.03594v2
- Date: Thu, 7 Dec 2023 03:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 11:23:33.234107
- Title: A Task is Worth One Word: Learning with Task Prompts for High-Quality
Versatile Image Inpainting
- Title(参考訳): タスクは価値ある1ワード:高画質のVersatile Image Inpaintingのためのタスクプロンプトによる学習
- Authors: Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen
- Abstract要約: 両タスクで優れる最初の高品質で多用途なインペイントモデルであるPowerPaintを紹介します。
まず、学習可能なタスクプロンプトと調整された微調整戦略を導入する。
第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
- 参考スコア(独自算出の注目度): 41.34541754387277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving high-quality versatile image inpainting, where user-specified
regions are filled with plausible content according to user intent, presents a
significant challenge. Existing methods face difficulties in simultaneously
addressing context-aware image inpainting and text-guided object inpainting due
to the distinct optimal training strategies required. To overcome this
challenge, we introduce PowerPaint, the first high-quality and versatile
inpainting model that excels in both tasks. First, we introduce learnable task
prompts along with tailored fine-tuning strategies to guide the model's focus
on different inpainting targets explicitly. This enables PowerPaint to
accomplish various inpainting tasks by utilizing different task prompts,
resulting in state-of-the-art performance. Second, we demonstrate the
versatility of the task prompt in PowerPaint by showcasing its effectiveness as
a negative prompt for object removal. Additionally, we leverage prompt
interpolation techniques to enable controllable shape-guided object inpainting.
Finally, we extensively evaluate PowerPaint on various inpainting benchmarks to
demonstrate its superior performance for versatile image inpainting. We release
our codes and models on our project page: https://powerpaint.github.io/.
- Abstract(参考訳): ユーザの指定した領域がユーザの意図に応じて妥当なコンテンツで満たされる、高品質な多彩なイメージインペインティングの実現には、大きな課題がある。
既存の手法では、適切なトレーニング戦略が必要となるため、コンテキスト認識画像の塗り込みとテキスト誘導オブジェクトの塗り込みを同時に扱うのが困難である。
この課題を克服するために、私たちはpowerpaintを紹介します。powerpaintは、両方のタスクに優れた、最初の高品質で多用途なインペインティングモデルです。
まず、学習可能なタスクプロンプトと調整された微調整戦略を導入し、モデルの焦点を異なる塗りつぶしターゲットに明示的に導く。
これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成できる。
第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
さらに,プロンプト補間手法を活用し,形状誘導型オブジェクトのインパインティングを制御可能とした。
最後に,様々なインパインティングベンチマークでPowerPaintを広範囲に評価し,多彩な画像インパインティングの優れた性能を示す。
当社のプロジェクトページでは、コードとモデルを公開しています。
関連論文リスト
- HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models [59.01600111737628]
HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。
そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。
実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T18:09:30Z) - Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-10-11T06:11:42Z) - PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文 参考訳(メタデータ) (2023-08-09T18:41:11Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Perceptual Artifacts Localization for Inpainting [60.5659086595901]
そこで本研究では,知覚的アーティファクトの自動セグメンテーションの学習タスクを提案する。
データセット上で高度なセグメンテーションネットワークをトレーニングし、インペイントされた画像内のインペイントされたアーティファクトを確実にローカライズする。
また, 対象領域と対象領域全体との比率である知覚人工物比 (PAR) という新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-08-05T18:50:51Z) - Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting
and Beyond [136.18504104345453]
塗り絵と塗り絵の間に有意義な協調関係を持つキリン塗り絵の枠組みを提示する。
提案アルゴリズムは、オブジェクト検出、深さ推定、画像超解像などの他のパノラマ視覚タスクに効果的に拡張できる。
論文 参考訳(メタデータ) (2022-04-18T21:18:49Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。