論文の概要: ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions
- arxiv url: http://arxiv.org/abs/2501.12173v1
- Date: Tue, 21 Jan 2025 14:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:16.729528
- Title: ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions
- Title(参考訳): ComposeAnyone: 分離多重モード条件による制御可能なレイアウト・ツー・ヒューマン生成
- Authors: Shiyue Zhang, Zheng Chong, Xi Lu, Wenqing Zhang, Haoxiang Li, Xujie Zhang, Jiehui Huang, Xiao Dong, Xiaodan Liang,
- Abstract要約: ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。
我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。
複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
- 参考スコア(独自算出の注目度): 74.30040551058319
- License:
- Abstract: Building on the success of diffusion models, significant advancements have been made in multimodal image generation tasks. Among these, human image generation has emerged as a promising technique, offering the potential to revolutionize the fashion design process. However, existing methods often focus solely on text-to-image or image reference-based human generation, which fails to satisfy the increasingly sophisticated demands. To address the limitations of flexibility and precision in human generation, we introduce ComposeAnyone, a controllable layout-to-human generation method with decoupled multimodal conditions. Specifically, our method allows decoupled control of any part in hand-drawn human layouts using text or reference images, seamlessly integrating them during the generation process. The hand-drawn layout, which utilizes color-blocked geometric shapes such as ellipses and rectangles, can be easily drawn, offering a more flexible and accessible way to define spatial layouts. Additionally, we introduce the ComposeHuman dataset, which provides decoupled text and reference image annotations for different components of each human image, enabling broader applications in human image generation tasks. Extensive experiments on multiple datasets demonstrate that ComposeAnyone generates human images with better alignment to given layouts, text descriptions, and reference images, showcasing its multi-task capability and controllability.
- Abstract(参考訳): 拡散モデルの成功に基づいて、マルチモーダル画像生成タスクにおいて顕著な進歩がなされている。
その中には、ファッションデザインのプロセスに革命をもたらす可能性を提供する、有望な技術として、人間の画像生成が登場している。
しかし、既存の手法はテキスト・ツー・イメージや画像参照に基づくヒューマン・ジェネレーションにのみ焦点をあてることが多い。
ヒューマンジェネレーションにおける柔軟性と精度の限界に対処するため,マルチモーダル条件を分離したレイアウト・ツー・ヒューマン・ジェネレーション方式であるComposeAnyoneを導入する。
具体的には、テキストや参照画像を用いて手書き人体レイアウトの任意の部分の疎結合制御を可能にし、生成プロセス中にシームレスに統合する。
手描きのレイアウトは、楕円や長方形のような色ブロックされた幾何学的形状を利用することができ、より柔軟で空間的レイアウトを定義できる方法を提供する。
さらに、人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供するComposeHumanデータセットを導入し、人間の画像生成タスクに幅広い応用を可能にする。
複数のデータセットに対する大規模な実験により、ComposeAnyoneは、所定のレイアウト、テキスト記述、参照画像との整合性を向上し、マルチタスク能力と制御性を示す。
関連論文リスト
- Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - AutoStory: Generating Diverse Storytelling Images with Minimal Human
Effort [55.83007338095763]
本稿では,多種多様で高品質で一貫したストーリーイメージを効果的に生成できる自動ストーリー可視化システムを提案する。
本研究では,大規模言語モデルの理解と計画能力をレイアウト計画に利用し,大規模テキスト・画像モデルを用いて高度なストーリー画像を生成する。
論文 参考訳(メタデータ) (2023-11-19T06:07:37Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - UMFuse: Unified Multi View Fusion for Human Editing applications [36.94334399493266]
複数のソース画像からポーズキーポイントとテクスチャを取り出すマルチビュー融合ネットワークを設計する。
提案した2つのタスク - マルチビューヒューマンリポジトリとMix&Matchヒューマンイメージ生成 - に対するネットワークの適用について述べる。
論文 参考訳(メタデータ) (2022-11-17T05:09:58Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。