論文の概要: FashionComposer: Compositional Fashion Image Generation
- arxiv url: http://arxiv.org/abs/2412.14168v2
- Date: Thu, 19 Dec 2024 11:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:38.349777
- Title: FashionComposer: Compositional Fashion Image Generation
- Title(参考訳): FashionComposer: 合成ファッション画像生成
- Authors: Sihui Ji, Yiyang Wang, Xi Chen, Xiaogang Xu, Hao Luo, Hengshuang Zhao,
- Abstract要約: 合成ファッション画像生成のためのFashionComposerを提案する。
マルチモーダル入力(テキストプロンプト、パラメトリックヒューマンモデル、衣料品画像、顔画像)を採用し、人間の外観、ポーズ、人物像をパーソナライズする。
包括的なソリューションとして、FashionComposerは、ヒューマンアルバム生成や多様な仮想試行タスクなど、他の多くのアプリケーションもサポートしています。
- 参考スコア(独自算出の注目度): 38.34543351663932
- License:
- Abstract: We present FashionComposer for compositional fashion image generation. Unlike previous methods, FashionComposer is highly flexible. It takes multi-modal input (i.e., text prompt, parametric human model, garment image, and face image) and supports personalizing the appearance, pose, and figure of the human and assigning multiple garments in one pass. To achieve this, we first develop a universal framework capable of handling diverse input modalities. We construct scaled training data to enhance the model's robust compositional capabilities. To accommodate multiple reference images (garments and faces) seamlessly, we organize these references in a single image as an "asset library" and employ a reference UNet to extract appearance features. To inject the appearance features into the correct pixels in the generated result, we propose subject-binding attention. It binds the appearance features from different "assets" with the corresponding text features. In this way, the model could understand each asset according to their semantics, supporting arbitrary numbers and types of reference images. As a comprehensive solution, FashionComposer also supports many other applications like human album generation, diverse virtual try-on tasks, etc.
- Abstract(参考訳): 合成ファッション画像生成のためのFashionComposerを提案する。
従来の方法とは異なり、FashionComposerは非常に柔軟である。
マルチモーダル入力(テキストプロンプト、パラメトリックヒューマンモデル、衣料品画像、顔画像)を受け取り、外観、ポーズ、人物像をパーソナライズし、1パスに複数の衣服を割り当てる。
そこで我々はまず,多様な入力モダリティを扱えるユニバーサルフレームワークを開発する。
我々は、モデルの堅牢な構成能力を高めるために、スケールしたトレーニングデータを構築した。
複数の参照画像(ガーメントと顔)をシームレスに収容するために、これらの参照を単一のイメージで「アセットライブラリ」として整理し、参照UNetを使用して外観特徴を抽出する。
生成した画像中の特徴を適切な画素に注入するために,主観的注目度を提案する。
異なる「アセット」の外観特徴と対応するテキスト特徴とを結合する。
このようにして、モデルは各アセットをセマンティクスに従って理解し、任意の数と参照画像の種類をサポートする。
包括的なソリューションとして、FashionComposerは、ヒューマンアルバム生成や多様な仮想試行タスクなど、他の多くのアプリケーションもサポートしています。
関連論文リスト
- ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。
我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。
複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文 参考訳(メタデータ) (2025-01-21T14:32:47Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Personalized Image Enhancement Featuring Masked Style Modeling [42.400427631514596]
ユーザの好む画像に基づいて,各ユーザの入力画像を強化する。
コンテンツを考慮した入力画像のスタイルを予測できるマスク型スタイルモデリング法を提案する。
我々は定量的評価とユーザスタディを行い、トレーニング手法を用いてトレーニングし、コンテンツ認識のパーソナライゼーションを成功させる。
論文 参考訳(メタデータ) (2023-06-15T17:59:02Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。