論文の概要: SceneComposer: Any-Level Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2211.11742v1
- Date: Mon, 21 Nov 2022 18:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:36:00.746254
- Title: SceneComposer: Any-Level Semantic Image Synthesis
- Title(参考訳): SceneComposer: あらゆるレベルのセマンティック画像合成
- Authors: Yu Zeng, Zhe Lin, Jianming Zhang, Qing Liu, John Collomosse, Jason
Kuen, Vishal M. Patel
- Abstract要約: 任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
- 参考スコア(独自算出の注目度): 80.55876413285587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new framework for conditional image synthesis from semantic
layouts of any precision levels, ranging from pure text to a 2D semantic canvas
with precise shapes. More specifically, the input layout consists of one or
more semantic regions with free-form text descriptions and adjustable precision
levels, which can be set based on the desired controllability. The framework
naturally reduces to text-to-image (T2I) at the lowest level with no shape
information, and it becomes segmentation-to-image (S2I) at the highest level.
By supporting the levels in-between, our framework is flexible in assisting
users of different drawing expertise and at different stages of their creative
workflow. We introduce several novel techniques to address the challenges
coming with this new setup, including a pipeline for collecting training data;
a precision-encoded mask pyramid and a text feature map representation to
jointly encode precision level, semantics, and composition information; and a
multi-scale guided diffusion model to synthesize images. To evaluate the
proposed method, we collect a test dataset containing user-drawn layouts with
diverse scenes and styles. Experimental results show that the proposed method
can generate high-quality images following the layout at given precision, and
compares favorably against existing methods. Project page
\url{https://zengxianyu.github.io/scenec/}
- Abstract(参考訳): 本稿では,任意の精度レベルのセマンティックレイアウトから,テキストから正確な形状の2次元セマンティックキャンバスまで,条件付き画像合成のための新しいフレームワークを提案する。
具体的には、入力レイアウトは、自由形式のテキスト記述と調整可能な精度レベルを備えた1つ以上のセマンティック領域で構成され、所望の制御性に基づいて設定できる。
このフレームワークは、自然に、形状情報なしで、最低レベルでtext-to-image(t2i)に縮小し、最高レベルでsegmentation-to-image(s2i)となる。
レベルを相互にサポートすることによって、当社のフレームワークは、さまざまな描画専門知識を持つユーザや、クリエイティブワークフローのさまざまな段階における支援に柔軟になります。
本稿では,この新設定の課題に対処するために,トレーニングデータの収集パイプライン,精度レベル,セマンティクス,コンポジション情報を共同でエンコードする精度エンコードされたマスクピラミッドとテキスト特徴マップ表現,画像合成のためのマルチスケール誘導拡散モデルなど,いくつかの新しい手法を紹介する。
提案手法を評価するために,様々なシーンとスタイルを持つユーザ描画レイアウトを含むテストデータセットを収集する。
実験の結果, 提案手法は, レイアウトに追従して高品質な画像を生成することができ, 既存の手法と好適に比較できることがわかった。
プロジェクトページ \url{https://zengxianyu.github.io/scenec/}
関連論文リスト
- Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Layout-Bridging Text-to-Image Synthesis [20.261873143881573]
我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
論文 参考訳(メタデータ) (2022-08-12T08:21:42Z) - DT2I: Dense Text-to-Image Generation from Region Descriptions [3.883984493622102]
我々は、より直感的な画像生成への道を開くための新しいタスクとして、高密度テキスト・ツー・イメージ(DT2I)合成を導入する。
また,意味豊かな領域記述から画像を生成する新しい手法であるDTC-GANを提案する。
論文 参考訳(メタデータ) (2022-04-05T07:57:11Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。