論文の概要: A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting
- arxiv url: http://arxiv.org/abs/2312.03594v4
- Date: Tue, 23 Jul 2024 11:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:23:10.443474
- Title: A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting
- Title(参考訳): タスクは価値ある1つの言葉である:高品質なVersatile Image Inpaintingのためのタスクプロンプトによる学習
- Authors: Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen,
- Abstract要約: 我々は,複数の塗装タスクに優れる最初の高品質で多用途な塗装モデルであるPowerPaintを紹介する。
本稿では,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
我々は, 形状誘導型物体の塗布を制御可能とし, 形状誘導型アプリケーションにおけるモデルの適用性を高めるために, プロンプト技術を活用している。
- 参考スコア(独自算出の注目度): 38.53807472111521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancing image inpainting is challenging as it requires filling user-specified regions for various intents, such as background filling and object synthesis. Existing approaches focus on either context-aware filling or object synthesis using text descriptions. However, achieving both tasks simultaneously is challenging due to differing training strategies. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in multiple inpainting tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model's focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Moreover, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting, enhancing the model's applicability in shape-guided applications. Finally, we conduct extensive experiments and applications to verify the effectiveness of PowerPaint. We release our codes and models on our project page: https://powerpaint.github.io/.
- Abstract(参考訳): 背景フィリングやオブジェクト合成など,ユーザの指定した領域を埋める必要があるため,画像のインペイントの促進は困難である。
既存のアプローチでは、コンテキスト対応の充足か、テキスト記述を使ったオブジェクト合成に重点を置いている。
しかし、異なるトレーニング戦略のため、両方のタスクを同時に達成することは困難である。
この課題を克服するために、我々はPowerPaintを紹介します。
まず、学習可能なタスクプロンプトと調整された微調整戦略を導入する。
これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成でき、その結果、最先端のパフォーマンスを実現します。
第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
さらに,プロンプト補間技術を活用し,形状誘導型物体の塗装を制御可能とし,形状誘導型アプリケーションにおけるモデルの適用性を高める。
最後に,PowerPaintの有効性を検証するため,広範囲な実験と応用を行った。
私たちはプロジェクトページでコードとモデルを公開しています。
関連論文リスト
- UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts [20.955898491009656]
UniPaintは、空間的時間的インパインティングを可能にする生成時空間ビデオインパインティングフレームワークである。
UniPaintは高品質で美的な結果をもたらし、さまざまなタスクにまたがって最高の結果とスケール設定を実現している。
論文 参考訳(メタデータ) (2024-12-09T09:45:14Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models [59.01600111737628]
HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。
そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。
実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T18:09:30Z) - Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-10-11T06:11:42Z) - PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文 参考訳(メタデータ) (2023-08-09T18:41:11Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。