論文の概要: Text-Driven Image Editing via Learnable Regions
- arxiv url: http://arxiv.org/abs/2311.16432v1
- Date: Tue, 28 Nov 2023 02:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:38:58.328474
- Title: Text-Driven Image Editing via Learnable Regions
- Title(参考訳): 学習可能な領域によるテキスト駆動画像編集
- Authors: Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Lu Jiang, Ming-Hsuan Yang
- Abstract要約: 本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述と一致した高忠実度およびリアリズムの画像操作において,提案手法の競合性能を示す。
- 参考スコア(独自算出の注目度): 79.87674394912302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language has emerged as a natural interface for image editing. In this paper,
we introduce a method for region-based image editing driven by textual prompts,
without the need for user-provided masks or sketches. Specifically, our
approach leverages an existing pretrained text-to-image model and introduces a
bounding box generator to find the edit regions that are aligned with the
textual prompts. We show that this simple approach enables flexible editing
that is compatible with current image generation models, and is able to handle
complex prompts featuring multiple objects, complex sentences or long
paragraphs. We conduct an extensive user study to compare our method against
state-of-the-art methods. Experiments demonstrate the competitive performance
of our method in manipulating images with high fidelity and realism that align
with the language descriptions provided. Our project webpage:
https://yuanze-lin.me/LearnableRegions_page.
- Abstract(参考訳): 言語は画像編集の自然なインターフェースとして登場した。
本稿では,ユーザが提供するマスクやスケッチを必要とせず,テキストプロンプトによる領域ベースの画像編集手法を提案する。
具体的には、既存の事前学習済みテキストから画像へのモデルを利用して、テキストプロンプトにアラインされた編集領域を見つけるためのバウンディングボックスジェネレータを導入する。
この単純なアプローチは、現在の画像生成モデルと互換性のある柔軟な編集を可能にし、複数のオブジェクト、複雑な文、長い段落を含む複雑なプロンプトを処理できることを示します。
本手法を最先端手法と比較するために,広範なユーザ調査を行った。
実験は,高い忠実性とリアリズムを持つ画像を操作し,提供された言語記述と整合する手法の競合性能を実証する。
私たちのプロジェクトのWebページは、https://yuanze-lin.me/LearnableRegions_pageです。
関連論文リスト
- Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。