論文の概要: Generative Photomontage
- arxiv url: http://arxiv.org/abs/2408.07116v1
- Date: Tue, 13 Aug 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:55:43.298068
- Title: Generative Photomontage
- Title(参考訳): ジェネレーティブフォトモンタージュ
- Authors: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu,
- Abstract要約: 生成した画像の様々な部分から合成して、所望の画像を作成するためのフレームワークを提案する。
ユーザはブラシストロークインタフェースを用いて,生成した結果から所望の部分を選択できる。
提案手法が既存の画像ブレンディング法より優れていることを示す。
- 参考スコア(独自算出の注目度): 40.49579203394384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルは画像作成の強力なツールである。
しかし、生成プロセスはダイスロールに似ているため、ユーザが望むものをすべてキャプチャする単一のイメージを実現するのが難しくなる。
本稿では、生成した画像の様々な部分から合成して、基本的に生成フォトモンタージュを形成することにより、所望の画像を作成するためのフレームワークを提案する。
ControlNetが同じ入力条件と異なるシードを用いて生成した画像のスタックが与えられた場合、ユーザはブラシストロークインタフェースを使用して生成された結果から所望の部分を選択できる。
ユーザのブラシストロークを取り込み、拡散特徴空間におけるグラフベースの最適化を用いて生成した画像を分割し、新しい特徴空間ブレンディング法によりセグメント化された領域を合成する新しい手法を提案する。
提案手法は,ユーザの選択した地域を忠実に保存し,調和して構成する。
当社のフレキシブルなフレームワークは、新しい外観の組み合わせの生成、不正な形状やアーティファクトの修正、迅速なアライメントの改善など、多くのアプリケーションで使用することができることを実証しています。
提案手法は既存の画像ブレンディング手法や様々なベースラインよりも優れていることを示す。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Image Collage on Arbitrary Shape via Shape-Aware Slicing and
Optimization [6.233023267175408]
任意の形状の画像コラージュを作成することができる形状スライシングアルゴリズムと最適化方式を提案する。
形状認識スライシング(Shape-Aware Slicing)は、不規則な形状に特化して設計されており、人間の知覚と形状構造を考慮に入れ、視覚的に心地よい仕切りを生成する。
論文 参考訳(メタデータ) (2023-11-17T09:41:30Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Diffusion Brush: A Latent Diffusion Model-based Editing Tool for
AI-generated Images [10.323260768204461]
テキスト・ツー・イメージ生成モデルは高品質な画像の生成において顕著な進歩を遂げている。
生成した画像を微調整するための既存の技術は、時間を要する(手作業による編集)。
我々は,AI合成画像内の所望領域を効率よく微調整する潜在拡散モデル(LDM)ツールであるDiffusion Brushを提案する。
論文 参考訳(メタデータ) (2023-05-31T22:27:21Z) - MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-04-17T17:42:19Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。