論文の概要: Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model
- arxiv url: http://arxiv.org/abs/2310.07222v1
- Date: Wed, 11 Oct 2023 06:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:03:15.592553
- Title: Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model
- Title(参考訳): Uni-paint: 事前制約付き拡散モデルによるマルチモーダル画像描画のための統一フレームワーク
- Authors: Shiyuan Yang, Xiaodong Chen, Jing Liao
- Abstract要約: マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 19.800236358666123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image denoising diffusion probabilistic models (DDPMs) have
demonstrated impressive image generation capabilities and have also been
successfully applied to image inpainting. However, in practice, users often
require more control over the inpainting process beyond textual guidance,
especially when they want to composite objects with customized appearance,
color, shape, and layout. Unfortunately, existing diffusion-based inpainting
methods are limited to single-modal guidance and require task-specific
training, hindering their cross-modal scalability. To address these
limitations, we propose Uni-paint, a unified framework for multimodal
inpainting that offers various modes of guidance, including unconditional,
text-driven, stroke-driven, exemplar-driven inpainting, as well as a
combination of these modes. Furthermore, our Uni-paint is based on pretrained
Stable Diffusion and does not require task-specific training on specific
datasets, enabling few-shot generalizability to customized images. We have
conducted extensive qualitative and quantitative evaluations that show our
approach achieves comparable results to existing single-modal methods while
offering multimodal inpainting capabilities not available in other methods.
Code will be available at https://github.com/ysy31415/unipaint.
- Abstract(参考訳): 近年, DDPM (text-to-image denoising diffusion probabilistic model) は画像生成能力に優れており, 画像塗布にも有効である。
しかし、実際には、ユーザーはテキストガイダンスを超えて、特にカスタマイズされた外観、色、形状、レイアウトのオブジェクトを合成したい場合に、塗装プロセスの制御をもっと必要とします。
残念ながら、既存の拡散ベースのインパインティング手法は単一モーダルガイダンスに限られており、タスク固有のトレーニングが必要であり、それらのクロスモーダルスケーラビリティを妨げる。
これらの制限に対処するために,マルチモーダルインペインティングのための統一フレームワークuni-paintを提案する。無条件,テキスト駆動,ストローク駆動,exemplar駆動インペインティング,これらモードの組み合わせなど,さまざまなガイダンスモードを提供する。
さらに,このuni-paintは事前学習された安定拡散に基づいており,特定のデータセットに対するタスク固有のトレーニングを必要としない。
提案手法は既存の単一モード法に匹敵する結果を示すとともに,他の手法では利用できないマルチモーダル・インパインティング機能を提供する。
コードはhttps://github.com/ysy31415/unipaintで入手できる。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Continuous-Multiple Image Outpainting in One-Step via Positional Query
and A Diffusion-based Approach [104.2588068730834]
本稿では, 文献で未解決の2つの方向において, 画像出力の技術的フロンティアを推し進める。
トレーニング済みのバックボーンネットワークに依存しない手法を開発した。
提案手法(PQDiff)を公開ベンチマークで評価し,最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-28T13:00:38Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions [12.792576041526287]
PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
論文 参考訳(メタデータ) (2023-08-09T18:41:11Z) - Adaptively-Realistic Image Generation from Stroke and Sketch with
Diffusion Model [31.652827838300915]
拡散モデルに基づくスケッチやストロークからの画像合成を3次元制御する統合フレームワークを提案する。
我々のフレームワークは、形状、色、リアリズムを制御したカスタマイズ画像の生成に柔軟性を提供しながら、最先端のパフォーマンスを実現している。
提案手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。
論文 参考訳(メタデータ) (2022-08-26T13:59:26Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z) - Collaboration among Image and Object Level Features for Image
Colourisation [25.60139324272782]
画像のカラー化は不適切な問題であり、入力データムに存在するコンテキストとオブジェクトインスタンスに依存する複数の正しいソリューションがある。
従来のアプローチは、強力なユーザーインタラクションを必要とするか、画像レベル(コンテキスト)機能を学ぶために畳み込みニューラルネットワーク(CNN)の能力を利用して、この問題を攻撃しました。
コンボリューションによって得られる画像レベルの特徴とカプセルによってキャプチャされるオブジェクトレベルの特徴を分離する,UCapsNetという単一のネットワークを提案する。
そして,異なる層間の接続をスキップすることで,これらの分離要因間の協調を強制し,高品質で再現可能な画像彩色を実現する。
論文 参考訳(メタデータ) (2021-01-19T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。