論文の概要: HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
- arxiv url: http://arxiv.org/abs/2410.14324v1
- Date: Fri, 18 Oct 2024 09:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:13.924757
- Title: HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
- Title(参考訳): HiCo:レイアウト・画像生成のための階層制御可能な拡散モデル
- Authors: Bo Cheng, Yuhang Ma, Liebucha Wu, Shanyuan Liu, Ao Ma, Xiaoyu Wu, Dawei Leng, Yuhui Yin,
- Abstract要約: レイアウト・画像生成のためのtextbfHierarchical textbfControllable (HiCo) 拡散モデルを提案する。
我々の重要な洞察は、レイアウトの階層的モデリングを通じて空間的ゆがみを実現することである。
自然シーンにおける多目的制御可能なレイアウト生成の性能を評価するため,HiCo-7Kベンチマークを提案する。
- 参考スコア(独自算出の注目度): 11.087309945227826
- License:
- Abstract: The task of layout-to-image generation involves synthesizing images based on the captions of objects and their spatial positions. Existing methods still struggle in complex layout generation, where common bad cases include object missing, inconsistent lighting, conflicting view angles, etc. To effectively address these issues, we propose a \textbf{Hi}erarchical \textbf{Co}ntrollable (HiCo) diffusion model for layout-to-image generation, featuring object seperable conditioning branch structure. Our key insight is to achieve spatial disentanglement through hierarchical modeling of layouts. We use a multi branch structure to represent hierarchy and aggregate them in fusion module. To evaluate the performance of multi-objective controllable layout generation in natural scenes, we introduce the HiCo-7K benchmark, derived from the GRIT-20M dataset and manually cleaned. https://github.com/360CVGroup/HiCo_T2I.
- Abstract(参考訳): レイアウト・ツー・イメージ生成の課題は、オブジェクトのキャプションとその空間的位置に基づく画像の合成である。
既存の手法は、オブジェクトの欠如、一貫性のない照明、矛盾するビューアングルなど、一般的な悪いケースで、複雑なレイアウト生成に苦慮しています。
これらの問題に効果的に対処するために、オブジェクト分離可能な条件分岐構造を特徴とするレイアウト・画像生成のための \textbf{Hi}erarchical \textbf{Co}ntrollable (HiCo)拡散モデルを提案する。
我々の重要な洞察は、レイアウトの階層的モデリングを通して空間的ゆがみを実現することである。
階層を表現し、それらを融合モジュールに集約するために、マルチブランチ構造を使用します。
自然シーンにおける多目的制御可能なレイアウト生成の性能を評価するために,GRIT-20MデータセットをベースとしたHiCo-7Kベンチマークを導入し,手作業によるクリーン化を行った。
https://github.com/360CVGroup/HiCo_T2I
関連論文リスト
- GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z) - COFS: Controllable Furniture layout Synthesis [40.68096097121981]
多くの既存手法は、レイアウトの要素に特定の順序を課すシーケンス生成問題としてこの問題に対処している。
言語モデリングから標準トランスフォーマーアーキテクチャブロックに基づくアーキテクチャであるCOFSを提案する。
我々のモデルは、定量的評価によって検証する他の方法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-29T13:31:18Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。