Fugu-MT 論文翻訳(概要): Generating Compositional Scenes via Text-to-image RGBA Instance Generation

論文の概要: Generating Compositional Scenes via Text-to-image RGBA Instance Generation

arxiv url: http://arxiv.org/abs/2411.10913v1
Date: Sat, 16 Nov 2024 23:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.418884
Title: Generating Compositional Scenes via Text-to-image RGBA Instance Generation
Title（参考訳）: テキストから画像へのRGBAインスタンス生成による構成シーンの生成
Authors: Alessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot,
Abstract要約: テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
参考スコア（独自算出の注目度）: 82.63805151691024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image diffusion generative models can generate high quality images at the cost of tedious prompt engineering. Controllability can be improved by introducing layout conditioning, however existing methods lack layout editing ability and fine-grained control over object attributes. The concept of multi-layer generation holds great potential to address these limitations, however generating image instances concurrently to scene composition limits control over fine-grained object attributes, relative positioning in 3D space and scene manipulation abilities. In this work, we propose a novel multi-stage generation paradigm that is designed for fine-grained control, flexibility and interactivity. To ensure control over instance attributes, we devise a novel training paradigm to adapt a diffusion model to generate isolated scene components as RGBA images with transparency information. To build complex images, we employ these pre-generated instances and introduce a multi-layer composite generation process that smoothly assembles components in realistic scenes. Our experiments show that our RGBA diffusion model is capable of generating diverse and high quality instances with precise control over object attributes. Through multi-layer composition, we demonstrate that our approach allows to build and manipulate images from highly complex prompts with fine-grained control over object appearance and location, granting a higher degree of control than competing methods.
Abstract（参考訳）: テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。レイアウトコンディショニングを導入することで、制御性を改善することができるが、既存のメソッドではレイアウト編集機能やオブジェクト属性のきめ細かい制御が欠如している。マルチレイヤ生成の概念は、これらの制限に対処する大きな可能性を秘めているが、シーン構成に並行して画像インスタンスを生成し、細粒度オブジェクト属性、3次元空間における相対的な位置決め、シーン操作能力を制限している。本研究では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。インスタンス属性の制御を確実にするため,透過性のあるRGBA画像として分離されたシーンコンポーネントを生成するために拡散モデルを適用するための新しいトレーニングパラダイムを考案した。複雑な画像を作成するために、これらのプリ生成インスタンスを使用し、現実的なシーンでコンポーネントを円滑に組み立てる多層複合生成プロセスを導入する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。提案手法は多層合成により,オブジェクトの外観や位置をきめ細かな制御で複雑なプロンプトから画像を構築し,操作することができることを示す。

関連論文リスト

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文参考訳（メタデータ） (2025-01-21T14:32:47Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文参考訳（メタデータ） (2024-10-07T11:26:13Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。 MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-04-03T14:58:00Z)
SceneX: Procedural Controllable Large-scale Scene Generation [52.4743878200172]
本稿では,デザイナーのテキスト記述に従って高品質な手続きモデルを自動生成するSceneXを紹介する。提案手法はPCGHubとPCGPlannerの2つのコンポーネントからなる。後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。
論文参考訳（メタデータ） (2024-03-23T03:23:29Z)
Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文参考訳（メタデータ） (2024-02-22T18:50:18Z)
Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文参考訳（メタデータ） (2024-01-28T16:18:39Z)
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。 RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文参考訳（メタデータ） (2024-01-22T06:16:29Z)
Identifying Systematic Errors in Object Detectors with the SCROD Pipeline [46.52729366461028]
オブジェクト検出器における系統的エラーの識別と除去は、安全クリティカルなアプリケーションへの展開の前提条件となる。粒度制御による合成画像の生成により,この制限を克服する。両手法の強みを組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-23T22:41:08Z)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (2023-02-16T06:28:29Z)
AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable Layout and Style [5.912209564607099]
レイアウトから属性制御画像合成を行う方法を提案する。我々は、属性の個々のオブジェクトを条件づけるために、レイアウトから画像への生成に関する最先端のアプローチを拡張する。提案手法は,複雑なシーンを複数のオブジェクトでモデリングする際に,個々のオブジェクトの細かな詳細をうまく制御できることを示す。
論文参考訳（メタデータ） (2021-03-25T10:09:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。