論文の概要: M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2205.11705v1
- Date: Tue, 24 May 2022 01:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 11:09:08.197456
- Title: M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing
- Title(参考訳): M6ファッション:高忠実なマルチモーダル画像生成と編集
- Authors: Zhikang Li, Huiling Zhou, Shuai Bai, Peike Li, Chang Zhou, Hongxia
Yang
- Abstract要約: 我々は、マルチモーダル制御のスタイルの事前知識と柔軟性を、1つの統合された2段階フレームワーク M6-Fashion に適用し、実践的なAI支援型ファッションデザインに焦点を当てる。
M6-Fashionは、非自己回帰生成の自己補正を利用して、推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。
- 参考スコア(独自算出の注目度): 51.033376763225675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fashion industry has diverse applications in multi-modal image generation
and editing. It aims to create a desired high-fidelity image with the
multi-modal conditional signal as guidance. Most existing methods learn
different condition guidance controls by introducing extra models or ignoring
the style prior knowledge, which is difficult to handle multiple signal
combinations and faces a low-fidelity problem. In this paper, we adapt both
style prior knowledge and flexibility of multi-modal control into one unified
two-stage framework, M6-Fashion, focusing on the practical AI-aided Fashion
design. It decouples style codes in both spatial and semantic dimensions to
guarantee high-fidelity image generation in the first stage. M6-Fashion
utilizes self-correction for the non-autoregressive generation to improve
inference speed, enhance holistic consistency, and support various signal
controls. Extensive experiments on a large-scale clothing dataset M2C-Fashion
demonstrate superior performances on various image generation and editing
tasks. M6-Fashion model serves as a highly potential AI designer for the
fashion industry.
- Abstract(参考訳): ファッション産業はマルチモーダル画像の生成と編集に様々な応用がある。
マルチモーダル条件信号を誘導として、所望の高忠実度画像を作成することを目的としている。
既存のほとんどの手法は、余分なモデルの導入や、複数の信号の組み合わせを扱うのが難しいスタイルの事前知識の無視により、異なる条件ガイダンス制御を学習する。
本稿では,マルチモーダル制御のスタイル事前知識と柔軟性の両方を,実用的なai支援ファッションデザインに着目した統合型2段階フレームワークm6-fashionに適用する。
空間次元と意味次元の両方でスタイルコードを分離し、第1段階で高忠実度画像生成を保証する。
M6-Fashionは非自己回帰生成の自己補正を利用して推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。
大規模な衣服データセットM2C-Fashionの大規模な実験は、様々な画像生成および編集タスクにおいて優れたパフォーマンスを示す。
m6-fashionモデルはファッション業界で非常に潜在的なaiデザイナーとして機能する。
関連論文リスト
- UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation [29.489516715874306]
ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。
我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-21T03:17:20Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts [48.214475133206385]
EMMAは、最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダルプロンプトを受け入れる新しい画像生成モデルである。
元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T14:26:43Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。