論文の概要: Composite Diffusion | whole >= \Sigma parts
- arxiv url: http://arxiv.org/abs/2307.13720v1
- Date: Tue, 25 Jul 2023 17:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:45:13.441361
- Title: Composite Diffusion | whole >= \Sigma parts
- Title(参考訳): Composite Diffusion | whole >= \Sigma part
- Authors: Vikram Jamwal and Ramaneswaran S
- Abstract要約: 本稿では,サブシーンからの合成により,アーティストが高品質な画像を生成する手段として,複合拡散を導入する。
サブシーンの生成, 構成, 調和の代替手段を可能にする, 複合拡散の包括的かつモジュラーな方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.
- Abstract(参考訳): アーティストやグラフィックデザイナーにとって、シーンの空間的レイアウトは重要なデザイン選択である。
しかし,既存のテキスト・画像拡散モデルでは空間情報を組み込むためのサポートが限られている。
本稿では,アーティストがサブシーンから合成して高品質な画像を生成する手段として,複合拡散を導入する。
アーティストはフレキシブルなフリーフォームセグメントレイアウトを通じて、これらのサブシーンの配置を指定できる。
彼らは、主に自然のテキストを用いて各サブシーンの内容を記述することができ、また、ラインアート、スクリブル、人間のポーズ、キャニーエッジなどの参照画像や制御入力を利用する。
サブシーンの生成、合成、および調和の代替方法を可能にする複合拡散の包括的かつモジュラーな方法を提供する。
さらに,画像の質とアーティストの意図を両立させるため,合成画像の評価を行おうとする。
既存の画像品質指標は、画像合成の全体的評価を欠いている。
そこで本稿では,合成生成に関連する新しい品質基準を提案する。
われわれのアプローチは直感的なアート制作方法を提供すると考えている。
広範なユーザ調査,定量的,質的分析を通じて,画像生成に対する空間的,意味的,創造的な制御を実現する方法を示す。
さらに,本手法では,ベース拡散モデルのアーキテクチャを再構成・変更する必要がなく,微調整モデルを用いてプラグアンドプレイで動作することができる。
関連論文リスト
- Neural-Polyptych: Content Controllable Painting Recreation for Diverse Genres [30.83874057768352]
我々は,広汎で高解像度な絵画の作成を容易にするために,ニューラル・ポリプチッチという統一的な枠組みを提案する。
我々は、生成プロセスを2つの部分に分割する、マルチスケールのGANベースのアーキテクチャを設計した。
我々は東洋絵画と西洋絵画の両方の多様なジャンルへのアプローチを検証する。
論文 参考訳(メタデータ) (2024-09-29T12:46:00Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - DiffMorph: Text-less Image Morphing with Diffusion Models [0.0]
verb|DiffMorph|は、テキストプロンプトを使わずに概念を混ぜたイメージを合成する。
verb|DiffMorph|は、アーティストが描いたスケッチを条件付けして初期画像を取得し、モルヒネ画像を生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルを用いて、各画像を忠実に再構成する。
論文 参考訳(メタデータ) (2024-01-01T12:42:32Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - The Stable Artist: Steering Semantics in Diffusion Latent Space [17.119616029527744]
本稿では,画像生成プロセスのきめ細かい制御を可能にする画像編集手法であるStable Artistを提案する。
主要なコンポーネントはセマンティックガイダンス(SEGA)であり、セマンティックな方向の変数数に沿って拡散過程を制御している。
SEGAは、モデルによって学習された概念の表現に関する洞察を得るために、潜在空間の探索を可能にする。
論文 参考訳(メタデータ) (2022-12-12T16:21:24Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。