論文の概要: Continuous Layout Editing of Single Images with Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.13078v1
- Date: Thu, 22 Jun 2023 17:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 13:17:41.070522
- Title: Continuous Layout Editing of Single Images with Diffusion Models
- Title(参考訳): 拡散モデルを用いた単一画像の連続レイアウト編集
- Authors: Zhiyuan Zhang, Zhitong Huang, Jing Liao
- Abstract要約: 本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。
私たちのアプローチは2つの重要なモジュールを通じて実現されます。
私たちのコードは受理後、無料で公開されます。
- 参考スコア(独自算出の注目度): 24.581184791106562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large-scale text-to-image diffusion models have
enabled many applications in image editing. However, none of these methods have
been able to edit the layout of single existing images. To address this gap, we
propose the first framework for layout editing of a single image while
preserving its visual properties, thus allowing for continuous editing on a
single image. Our approach is achieved through two key modules. First, to
preserve the characteristics of multiple objects within an image, we
disentangle the concepts of different objects and embed them into separate
textual tokens using a novel method called masked textual inversion. Next, we
propose a training-free optimization method to perform layout control for a
pre-trained diffusion model, which allows us to regenerate images with learned
concepts and align them with user-specified layouts. As the first framework to
edit the layout of existing images, we demonstrate that our method is effective
and outperforms other baselines that were modified to support this task. Our
code will be freely available for public use upon acceptance.
- Abstract(参考訳): 近年の大規模テキスト・画像拡散モデルの進歩は画像編集における多くの応用を可能にしている。
しかし、これらの方法では、既存の単一の画像のレイアウトを編集することはできない。
このギャップに対処するために,視覚特性を維持しながら1つの画像のレイアウト編集を行うための最初のフレームワークを提案する。
我々のアプローチは2つの主要なモジュールによって達成される。
まず、画像内の複数のオブジェクトの特性を保存するため、異なるオブジェクトの概念を分離し、マスク付きテキスト反転と呼ばれる新しい方法を用いて、それらを別々のテキストトークンに埋め込む。
次に,事前学習した拡散モデルのレイアウト制御を行うためのトレーニングフリーな最適化手法を提案する。
既存の画像のレイアウトを編集する最初のフレームワークとして,提案手法が有効であることを実証し,このタスクをサポートするために修正された他のベースラインよりも優れていることを示す。
私たちのコードは受理後無料で公開されます。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。