論文の概要: Generating Compositional Scenes via Text-to-image RGBA Instance Generation
- arxiv url: http://arxiv.org/abs/2411.10913v1
- Date: Sat, 16 Nov 2024 23:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:45.817813
- Title: Generating Compositional Scenes via Text-to-image RGBA Instance Generation
- Title(参考訳): テキストから画像へのRGBAインスタンス生成による構成シーンの生成
- Authors: Alessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot,
- Abstract要約: テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
- 参考スコア(独自算出の注目度): 82.63805151691024
- License:
- Abstract: Text-to-image diffusion generative models can generate high quality images at the cost of tedious prompt engineering. Controllability can be improved by introducing layout conditioning, however existing methods lack layout editing ability and fine-grained control over object attributes. The concept of multi-layer generation holds great potential to address these limitations, however generating image instances concurrently to scene composition limits control over fine-grained object attributes, relative positioning in 3D space and scene manipulation abilities. In this work, we propose a novel multi-stage generation paradigm that is designed for fine-grained control, flexibility and interactivity. To ensure control over instance attributes, we devise a novel training paradigm to adapt a diffusion model to generate isolated scene components as RGBA images with transparency information. To build complex images, we employ these pre-generated instances and introduce a multi-layer composite generation process that smoothly assembles components in realistic scenes. Our experiments show that our RGBA diffusion model is capable of generating diverse and high quality instances with precise control over object attributes. Through multi-layer composition, we demonstrate that our approach allows to build and manipulate images from highly complex prompts with fine-grained control over object appearance and location, granting a higher degree of control than competing methods.
- Abstract(参考訳): テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
レイアウトコンディショニングを導入することで、制御性を改善することができるが、既存のメソッドではレイアウト編集機能やオブジェクト属性のきめ細かい制御が欠如している。
マルチレイヤ生成の概念は、これらの制限に対処する大きな可能性を秘めているが、シーン構成に並行して画像インスタンスを生成し、細粒度オブジェクト属性、3次元空間における相対的な位置決め、シーン操作能力を制限している。
本研究では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
インスタンス属性の制御を確実にするため,透過性のあるRGBA画像として分離されたシーンコンポーネントを生成するために拡散モデルを適用するための新しいトレーニングパラダイムを考案した。
複雑な画像を作成するために、これらのプリ生成インスタンスを使用し、現実的なシーンでコンポーネントを円滑に組み立てる多層複合生成プロセスを導入する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
提案手法は多層合成により,オブジェクトの外観や位置をきめ細かな制御で複雑なプロンプトから画像を構築し,操作することができることを示す。
関連論文リスト
- ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。
我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。
複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文 参考訳(メタデータ) (2025-01-21T14:32:47Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - SceneX: Procedural Controllable Large-scale Scene Generation [52.4743878200172]
本稿では,デザイナーのテキスト記述に従って高品質な手続きモデルを自動生成するSceneXを紹介する。
提案手法はPCGHubとPCGPlannerの2つのコンポーネントからなる。
後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。
論文 参考訳(メタデータ) (2024-03-23T03:23:29Z) - Identifying Systematic Errors in Object Detectors with the SCROD
Pipeline [46.52729366461028]
オブジェクト検出器における系統的エラーの識別と除去は、安全クリティカルなアプリケーションへの展開の前提条件となる。
粒度制御による合成画像の生成により,この制限を克服する。
両手法の強みを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-23T22:41:08Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable
Layout and Style [5.912209564607099]
レイアウトから属性制御画像合成を行う方法を提案する。
我々は、属性の個々のオブジェクトを条件づけるために、レイアウトから画像への生成に関する最先端のアプローチを拡張する。
提案手法は,複雑なシーンを複数のオブジェクトでモデリングする際に,個々のオブジェクトの細かな詳細をうまく制御できることを示す。
論文 参考訳(メタデータ) (2021-03-25T10:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。