Fugu-MT 論文翻訳(概要): A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting

論文の概要: A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting

arxiv url: http://arxiv.org/abs/2312.03594v2
Date: Thu, 7 Dec 2023 03:13:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 11:23:33.234107
Title: A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting
Title（参考訳）: タスクは価値ある1ワード:高画質のVersatile Image Inpaintingのためのタスクプロンプトによる学習
Authors: Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen
Abstract要約: 両タスクで優れる最初の高品質で多用途なインペイントモデルであるPowerPaintを紹介します。まず、学習可能なタスクプロンプトと調整された微調整戦略を導入する。第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
参考スコア（独自算出の注目度）: 41.34541754387277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Achieving high-quality versatile image inpainting, where user-specified regions are filled with plausible content according to user intent, presents a significant challenge. Existing methods face difficulties in simultaneously addressing context-aware image inpainting and text-guided object inpainting due to the distinct optimal training strategies required. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in both tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model's focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Additionally, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting. Finally, we extensively evaluate PowerPaint on various inpainting benchmarks to demonstrate its superior performance for versatile image inpainting. We release our codes and models on our project page: https://powerpaint.github.io/.
Abstract（参考訳）: ユーザの指定した領域がユーザの意図に応じて妥当なコンテンツで満たされる、高品質な多彩なイメージインペインティングの実現には、大きな課題がある。既存の手法では、適切なトレーニング戦略が必要となるため、コンテキスト認識画像の塗り込みとテキスト誘導オブジェクトの塗り込みを同時に扱うのが困難である。この課題を克服するために、私たちはpowerpaintを紹介します。powerpaintは、両方のタスクに優れた、最初の高品質で多用途なインペインティングモデルです。まず、学習可能なタスクプロンプトと調整された微調整戦略を導入し、モデルの焦点を異なる塗りつぶしターゲットに明示的に導く。これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成できる。第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。さらに,プロンプト補間手法を活用し,形状誘導型オブジェクトのインパインティングを制御可能とした。最後に,様々なインパインティングベンチマークでPowerPaintを広範囲に評価し,多彩な画像インパインティングの優れた性能を示す。当社のプロジェクトページでは、コードとモデルを公開しています。

関連論文リスト

UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts [20.955898491009656]
UniPaintは、空間的時間的インパインティングを可能にする生成時空間ビデオインパインティングフレームワークである。 UniPaintは高品質で美的な結果をもたらし、さまざまなタスクにまたがって最高の結果とスケール設定を実現している。
論文参考訳（メタデータ） (2024-12-09T09:45:14Z)
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文参考訳（メタデータ） (2024-06-03T07:14:19Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。インペイントプロセスのガイドには自然言語命令を使用する。 Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文参考訳（メタデータ） (2024-01-18T18:59:13Z)
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models [59.01600111737628]
HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
論文参考訳（メタデータ） (2023-12-21T18:09:30Z)
Uni-paint: A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。 Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文参考訳（メタデータ） (2023-10-11T06:11:42Z)
PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文参考訳（メタデータ） (2023-08-09T18:41:11Z)
SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文参考訳（メタデータ） (2022-12-09T18:36:13Z)
Images Speak in Images: A Generalist Painter for In-Context Visual Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文参考訳（メタデータ） (2022-12-05T18:59:50Z)
Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文参考訳（メタデータ） (2022-08-03T04:32:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。