論文の概要: ComposeAnything: Composite Object Priors for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.24086v1
- Date: Fri, 30 May 2025 00:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.709611
- Title: ComposeAnything: Composite Object Priors for Text-to-Image Generation
- Title(参考訳): ComposeAnything: テキスト・画像生成に先立つ複合オブジェクト
- Authors: Zeeshan Khan, Shizhe Chen, Cordelia Schmid,
- Abstract要約: ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。
提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。
本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 72.98469853839246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images from text involving complex and novel object arrangements remains a significant challenge for current text-to-image (T2I) models. Although prior layout-based methods improve object arrangements using spatial constraints with 2D layouts, they often struggle to capture 3D positioning and sacrifice quality and coherence. In this work, we introduce ComposeAnything, a novel framework for improving compositional image generation without retraining existing T2I models. Our approach first leverages the chain-of-thought reasoning abilities of LLMs to produce 2.5D semantic layouts from text, consisting of 2D object bounding boxes enriched with depth information and detailed captions. Based on this layout, we generate a spatial and depth aware coarse composite of objects that captures the intended composition, serving as a strong and interpretable prior that replaces stochastic noise initialization in diffusion-based T2I models. This prior guides the denoising process through object prior reinforcement and spatial-controlled denoising, enabling seamless generation of compositional objects and coherent backgrounds, while allowing refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D spatial arrangements, high object counts, and surreal compositions. Human evaluations further demonstrate that our model generates high-quality images with compositions that faithfully reflect the text.
- Abstract(参考訳): 複雑で斬新なオブジェクト配列を含むテキストから画像を生成することは、現在のテキスト・ツー・イメージ(T2I)モデルにとって重要な課題である。
従来のレイアウトベースの手法は2次元レイアウトによる空間的制約を用いてオブジェクト配置を改善するが、3次元の位置決めと品質とコヒーレンスを捉えるのに苦労することが多い。
本稿では,既存のT2Iモデルを再学習することなく,合成画像生成を改善する新しいフレームワークであるComposeAnythingを紹介する。
提案手法はまず,LLMの連鎖推論能力を利用して,深度情報と詳細なキャプションに富んだ2次元オブジェクト境界ボックスからなるテキストから2.5Dセマンティックレイアウトを生成する。
このレイアウトに基づいて、対象の合成を捕捉するオブジェクトの空間的および奥行きを考慮した粗い合成を生成し、拡散に基づくT2Iモデルにおける確率的雑音初期化を置き換える、強力で解釈可能な前駆体として機能する。
この先行は、対象の事前強化と空間制御された復調により、合成対象とコヒーレントな背景のシームレスな生成を可能にし、不正確な事前の洗練を可能にする。
ComposeAnything は、T2I-CompBench と NSR-1K ベンチマークにおいて、2D/3D空間配置、高オブジェクト数、超現実的な構成を持つプロンプトに対して、最先端の手法より優れている。
人間の評価は、本モデルがテキストを忠実に反映した合成による高品質な画像を生成することを示す。
関連論文リスト
- CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation [21.171612603385405]
テキストフレンドリーな画像生成のための,空白領域におけるトレーニング不要な動的バックグラウンド適応であるTextCenGenを提案する。
本手法は,テキスト領域に重なり合う矛盾するオブジェクトを識別するために,クロスアテンションマップを解析する。
本手法はプラグ・アンド・プレイであり, セマンティックな忠実さと視覚的品質の両面のバランスを保ちながら, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-04-18T01:10:24Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。