論文の概要: Composer: Creative and Controllable Image Synthesis with Composable
Conditions
- arxiv url: http://arxiv.org/abs/2302.09778v2
- Date: Wed, 22 Feb 2023 02:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 12:07:09.584766
- Title: Composer: Creative and Controllable Image Synthesis with Composable
Conditions
- Title(参考訳): Composer: 構成可能な条件による創造的で制御可能な画像合成
- Authors: Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou
- Abstract要約: ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
- 参考スコア(独自算出の注目度): 57.78533372393828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large-scale generative models learned on big data are capable of
synthesizing incredible images yet suffer from limited controllability. This
work offers a new generation paradigm that allows flexible control of the
output image, such as spatial layout and palette, while maintaining the
synthesis quality and model creativity. With compositionality as the core idea,
we first decompose an image into representative factors, and then train a
diffusion model with all these factors as the conditions to recompose the
input. At the inference stage, the rich intermediate representations work as
composable elements, leading to a huge design space (i.e., exponentially
proportional to the number of decomposed factors) for customizable content
creation. It is noteworthy that our approach, which we call Composer, supports
various levels of conditions, such as text description as the global
information, depth map and sketch as the local guidance, color histogram for
low-level details, etc. Besides improving controllability, we confirm that
Composer serves as a general framework and facilitates a wide range of
classical generative tasks without retraining. Code and models will be made
available.
- Abstract(参考訳): ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この作品は、合成品質とモデルの創造性を維持しつつ、空間レイアウトやパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
合成性が中心となるアイデアとして、まずイメージを代表的要因に分解し、次にこれらの要素をすべて入力を再構成する条件として拡散モデルを訓練する。
推論段階では、リッチ中間表現は構成可能な要素として機能し、カスタマイズ可能なコンテンツ生成のための巨大な設計空間(すなわち分解因子の数に指数関数的に比例する)につながる。
私たちがComposerと呼ぶアプローチは、グローバル情報としてのテキスト記述、ローカルガイダンスとしての深度マップとスケッチ、低レベルの詳細のためのカラーヒストグラムなど、さまざまなレベルの条件をサポートしています。
制御性の向上に加えて,composerが汎用的なフレームワークとして機能し,再トレーニングすることなく,幅広い古典的生成タスクを促進できることを確認した。
コードとモデルは利用可能になる。
関連論文リスト
- AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks [23.041812897803034]
任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。
我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2024-11-24T04:49:07Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis [77.23998762763078]
画像合成のためのマルチスケール粗大な分極処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。
提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。
我々は、テキスト・ツー・イメージ合成、レイアウト・ツー・イメージ、シーン・トゥ・イメージ、ラベル・ツー・イメージなど、様々な無条件・条件の画像生成タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-29T17:37:29Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - Synthesizing human-like sketches from natural images using a conditional
convolutional decoder [3.3504365823045035]
本研究では,自然画像中の物体の人間的なスケッチを合成できる,完全な畳み込み型エンドツーエンドアーキテクチャを提案する。
スケッチとイメージのペアのコレクション上で、エンドツーエンドの教師付きで構造をトレーニングします。
生成したアーキテクチャのスケッチを85.6%の精度で分類し,ユーザスタディを通じてその視覚的品質を検証する。
論文 参考訳(メタデータ) (2020-03-16T10:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。