論文の概要: A Unified Prompt-Guided In-Context Inpainting Framework for
Reference-based Image Manipulations
- arxiv url: http://arxiv.org/abs/2305.11577v1
- Date: Fri, 19 May 2023 10:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:56:28.278582
- Title: A Unified Prompt-Guided In-Context Inpainting Framework for
Reference-based Image Manipulations
- Title(参考訳): 参照型画像マニピュレーションのための統一型プロンプトガイド型インテクストインペインティングフレームワーク
- Authors: Chenjie Cao, Qiaole Dong, Yikai Wang, Yunuo Cai, Yanwei Fu
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは、一貫したテキスト・プロンプトに基づいて高忠実度画像を生成するという印象的な結果を得た。
それまでのアプローチでは、制御モジュールの追加や、収束するまで各タスクに特化して生成モデルを微調整することで、これを達成してきた。
本稿では,大規模なT2Iモデルを用いて参照誘導画像操作を再構成し,解決する,統一されたPrompt-Guided In-Contextインパインティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.02548030497836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Text-to-Image (T2I) generative models have yielded
impressive results in generating high-fidelity images based on consistent text
prompts. However, there is a growing interest in exploring the potential of
these models for more diverse reference-based image manipulation tasks that
require spatial understanding and visual context. Previous approaches have
achieved this by incorporating additional control modules or fine-tuning the
generative models specifically for each task until convergence. In this paper,
we propose a different perspective. We conjecture that current large-scale T2I
generative models already possess the capability to perform these tasks but are
not fully activated within the standard generation process. To unlock these
capabilities, we introduce a unified Prompt-Guided In-Context inpainting (PGIC)
framework, which leverages large-scale T2I models to re-formulate and solve
reference-guided image manipulations. In the PGIC framework, the reference and
masked target are stitched together as a new input for the generative models,
enabling the filling of masked regions as producing final results. Furthermore,
we demonstrate that the self-attention modules in T2I models are well-suited
for establishing spatial correlations and efficiently addressing challenging
reference-guided manipulations. These large T2I models can be effectively
driven by task-specific prompts with minimal training cost or even with frozen
backbones. We synthetically evaluate the effectiveness of the proposed PGIC
framework across various tasks, including reference-guided image inpainting,
faithful inpainting, outpainting, local super-resolution, and novel view
synthesis. Our results show that PGIC achieves significantly better performance
while requiring less computation compared to other fine-tuning based
approaches.
- Abstract(参考訳): 最近のtext-to-image (t2i)生成モデルの進歩は、一貫したテキストプロンプトに基づいて高忠実度画像を生成する素晴らしい結果をもたらした。
しかし、空間的理解と視覚的コンテキストを必要とする、より多様な参照ベースの画像操作タスクに対して、これらのモデルの可能性を探ることへの関心が高まっている。
以前のアプローチでは、追加の制御モジュールを組み込んだり、収束するまで各タスクに特別に生成モデルを微調整することでこれを達成していた。
本稿では,異なる視点を提案する。
我々は、現在の大規模T2I生成モデルは、これらのタスクを実行する能力を持っているが、標準生成プロセス内で完全に活性化されていないと推測する。
これらの機能を解き放つために,大規模T2Iモデルを活用して参照誘導画像操作を再現・解決する,統一されたPrompt-Guided In-Context In-painting(PGIC)フレームワークを導入する。
PGICフレームワークでは、生成モデルの新たな入力として、参照とマスクされたターゲットを縫合し、マスクされた領域の充填を最終結果として実現する。
さらに,T2Iモデルにおける自己注意モジュールは,空間相関の確立や参照誘導操作の効率化に適していることを示す。
これらの大きなT2Iモデルは、最小のトレーニングコストでタスク固有のプロンプトによって効果的に駆動できる。
提案するpgicフレームワークの有効性を,参照誘導型画像インパインティング,忠実なインパインティング,アウトパインティング,局所超解像,新規ビュー合成など様々なタスクで総合的に評価した。
その結果,PGICは他の微調整方式に比べて計算量が少なく,性能は大幅に向上した。
関連論文リスト
- Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Compact Bidirectional Transformer for Image Captioning [15.773455578749118]
画像キャプションのためのコンパクトな双方向トランスフォーマーモデルを導入し、双方向コンテキストを暗黙的かつ明示的に活用する。
我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、コンパクトアーキテクチャが、暗黙的に双方向コンテキストを活用するための正規化として機能することを発見した。
我々は、非視覚言語事前学習モデルと比較して、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-01-06T09:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。