論文の概要: DreamInpainter: Text-Guided Subject-Driven Image Inpainting with
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.03771v1
- Date: Tue, 5 Dec 2023 22:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:39:35.948131
- Title: DreamInpainter: Text-Guided Subject-Driven Image Inpainting with
Diffusion Models
- Title(参考訳): DreamInpainter: 拡散モデルによるテキストガイド型主観的イメージインペインティング
- Authors: Shaoan Xie, Yang Zhao, Zhisheng Xiao, Kelvin C.K. Chan, Yandong Li,
Yanwu Xu, Kun Zhang, Tingbo Hou
- Abstract要約: 本研究は,テキストガイドによる主題駆動画像の描画について紹介する。
我々は、被写体再現の精度を確保するために、密集した被写体特徴を計算する。
我々は、余分な被写体の詳細を排除するために識別トークン選択モジュールを使用します。
- 参考スコア(独自算出の注目度): 37.133727797607676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces Text-Guided Subject-Driven Image Inpainting, a novel
task that combines text and exemplar images for image inpainting. While both
text and exemplar images have been used independently in previous efforts,
their combined utilization remains unexplored. Simultaneously accommodating
both conditions poses a significant challenge due to the inherent balance
required between editability and subject fidelity. To tackle this challenge, we
propose a two-step approach DreamInpainter. First, we compute dense subject
features to ensure accurate subject replication. Then, we employ a
discriminative token selection module to eliminate redundant subject details,
preserving the subject's identity while allowing changes according to other
conditions such as mask shape and text prompts. Additionally, we introduce a
decoupling regularization technique to enhance text control in the presence of
exemplar images. Our extensive experiments demonstrate the superior performance
of our method in terms of visual quality, identity preservation, and text
control, showcasing its effectiveness in the context of text-guided
subject-driven image inpainting.
- Abstract(参考訳): 本研究は,テキストとexemplar画像を組み合わせた新しいタスクであるtext-guided subject-driven image inpaintingを導入する。
テキスト画像とexemplar画像の両方は、これまで独立して使用されてきたが、それらの組み合わせ利用は未調査のままである。
両方の条件を同時に満たすことは、編集可能性と主題の忠実性の間に固有のバランスが必要となるため、大きな課題となる。
この課題に対処するために,DreamInpainterという2段階のアプローチを提案する。
まず,被写体の密集した特徴を計算し,被写体の再現性を確保する。
そして、識別トークン選択モジュールを用いて、余分な被写体の詳細を排除し、被写体を保護しつつ、マスク形状やテキストプロンプトなどの他の条件に応じて変化を許容する。
さらに,デカップリング正規化手法を導入し,既存の画像の存在下でテキスト制御を強化する。
提案手法は,視覚品質,アイデンティティ保存,テキスト制御において優れた性能を示し,テキストガイド付き主題駆動画像インパインティングの文脈においてその効果を示す。
関連論文リスト
- Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Person Text-Image Matching via Text-Featur Interpretability Embedding
and External Attack Node Implantation [22.070781214170164]
人物のテキスト画像マッチングは、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。
テキスト機能の解釈可能性の欠如は、それらと対応する画像の特徴を効果的に整合させることを困難にしている。
テキスト特徴解釈能力と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T04:15:37Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。