論文の概要: Layout-Bridging Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2208.06162v1
- Date: Fri, 12 Aug 2022 08:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:31:21.811674
- Title: Layout-Bridging Text-to-Image Synthesis
- Title(参考訳): レイアウトブリッジによる画像合成
- Authors: Jiadong Liang, Wenjie Pei and Feng Lu
- Abstract要約: 我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
- 参考スコア(独自算出の注目度): 20.261873143881573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The crux of text-to-image synthesis stems from the difficulty of preserving
the cross-modality semantic consistency between the input text and the
synthesized image. Typical methods, which seek to model the text-to-image
mapping directly, could only capture keywords in the text that indicates common
objects or actions but fail to learn their spatial distribution patterns. An
effective way to circumvent this limitation is to generate an image layout as
guidance, which is attempted by a few methods. Nevertheless, these methods fail
to generate practically effective layouts due to the diversity of input text
and object location. In this paper we push for effective modeling in both
text-to-layout generation and layout-to-image synthesis. Specifically, we
formulate the text-to-layout generation as a sequence-to-sequence modeling
task, and build our model upon Transformer to learn the spatial relationships
between objects by modeling the sequential dependencies between them. In the
stage of layout-to-image synthesis, we focus on learning the textual-visual
semantic alignment per object in the layout to precisely incorporate the input
text into the layout-to-image synthesizing process. To evaluate the quality of
generated layout, we design a new metric specifically, dubbed Layout Quality
Score, which considers both the absolute distribution errors of bounding boxes
in the layout and the mutual spatial relationships between them. Extensive
experiments on three datasets demonstrate the superior performance of our
method over state-of-the-art methods on both predicting the layout and
synthesizing the image from the given text.
- Abstract(参考訳): テキストから画像への合成のcruxは、入力テキストと合成画像との間の相互モダリティのセマンティクスの一貫性を保つことが困難であることに起因する。
テキストから画像へのマッピングを直接モデル化しようとする典型的な方法は、共通のオブジェクトやアクションを示すテキスト内のキーワードのみをキャプチャするが、その空間分布パターンは学習できない。
この制限を回避する効果的な方法は、いくつかの方法によって試みられたガイダンスとしてイメージレイアウトを生成することである。
しかし、これらの手法は入力テキストとオブジェクトの位置が多様であるため、事実上有効なレイアウトを生成することができない。
本稿では,テキストからレイアウトへの生成とレイアウトから画像への合成の両方において,効果的なモデリングをプッシュする。
具体的には,シーケンシャル・ツー・シーケンス・モデリングタスクとしてテキスト・ツー・レイアウト生成を定式化し,トランスフォーマー上にモデルを構築し,それらのシーケンシャルな依存関係をモデル化することでオブジェクト間の空間的関係を学習する。
レイアウト・ツー・イメージ合成の段階では,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習し,入力テキストを正確にレイアウト・ツー・イメージ合成プロセスに組み込む。
生成したレイアウトの品質を評価するために,レイアウトにおけるバウンディングボックスの絶対分布誤差と,それらの相互空間的関係を考慮し,レイアウト品質スコアと呼ばれる新しい指標を設計した。
3つのデータセットに対する大規模な実験は、レイアウト予測と与えられたテキストからの画像合成において、最先端の手法よりも優れた性能を示す。
関連論文リスト
- GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。