論文の概要: Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation
- arxiv url: http://arxiv.org/abs/2409.04847v1
- Date: Sat, 7 Sep 2024 14:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:31:31.240361
- Title: Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation
- Title(参考訳): リッチコンテキストレイアウト画像生成のトレーニングと評価の再考
- Authors: Jiaxin Cheng, Zixu Zhao, Tong He, Tianjun Xiao, Yicong Zhou, Zheng Zhang,
- Abstract要約: 生成モデリングにおける特殊領域はレイアウト・ツー・イメージ(L2I)生成である。
レイアウト・ツー・イメージ・ジェネレーションの強化を目的とした,新しい領域横断モジュールを提案する。
オープン語彙シナリオにおけるL2I性能を評価するための2つの指標を提案する。
- 参考スコア(独自算出の注目度): 44.094656220043106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in generative models have significantly enhanced their capacity for image generation, enabling a wide range of applications such as image editing, completion and video editing. A specialized area within generative modeling is layout-to-image (L2I) generation, where predefined layouts of objects guide the generative process. In this study, we introduce a novel regional cross-attention module tailored to enrich layout-to-image generation. This module notably improves the representation of layout regions, particularly in scenarios where existing methods struggle with highly complex and detailed textual descriptions. Moreover, while current open-vocabulary L2I methods are trained in an open-set setting, their evaluations often occur in closed-set environments. To bridge this gap, we propose two metrics to assess L2I performance in open-vocabulary scenarios. Additionally, we conduct a comprehensive user study to validate the consistency of these metrics with human preferences.
- Abstract(参考訳): 生成モデルの最近の進歩は、画像生成能力を大幅に向上させ、画像編集、補完、ビデオ編集など幅広い応用を可能にしている。
生成モデリングにおける特別な領域はレイアウト・ツー・イメージ(L2I)生成であり、事前に定義されたオブジェクトのレイアウトが生成プロセスを導く。
本研究では,レイアウト・ツー・イメージ・ジェネレーションを充実させるため,新しい領域横断モジュールを提案する。
このモジュールは特に、既存のメソッドが非常に複雑で詳細なテキスト記述に苦労するシナリオにおいて、レイアウト領域の表現を改善している。
さらに、現在の開語彙L2I法はオープンセット環境で訓練されるが、その評価はしばしばクローズドセット環境で行われる。
このギャップを埋めるために、オープン語彙シナリオにおけるL2I性能を評価するための2つの指標を提案する。
さらに、これらの指標と人間の嗜好との整合性を検証するために、包括的なユーザスタディを実施している。
関連論文リスト
- Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - LSReGen: Large-Scale Regional Generator via Backward Guidance Framework [12.408195812609042]
制御可能な画像生成は 依然として課題です
トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。
本稿では,後方誘導の一般的な解釈を提供する新しい制御可能な生成フレームワークを提案する。
本稿では,高品質でレイアウトに適合した画像を生成するための大規模なレイアウト・ツー・イメージ手法であるLSReGenを紹介する。
論文 参考訳(メタデータ) (2024-07-21T05:44:46Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。