論文の概要: M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2205.11705v1
- Date: Tue, 24 May 2022 01:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 11:09:08.197456
- Title: M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing
- Title(参考訳): M6ファッション:高忠実なマルチモーダル画像生成と編集
- Authors: Zhikang Li, Huiling Zhou, Shuai Bai, Peike Li, Chang Zhou, Hongxia
Yang
- Abstract要約: 我々は、マルチモーダル制御のスタイルの事前知識と柔軟性を、1つの統合された2段階フレームワーク M6-Fashion に適用し、実践的なAI支援型ファッションデザインに焦点を当てる。
M6-Fashionは、非自己回帰生成の自己補正を利用して、推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。
- 参考スコア(独自算出の注目度): 51.033376763225675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fashion industry has diverse applications in multi-modal image generation
and editing. It aims to create a desired high-fidelity image with the
multi-modal conditional signal as guidance. Most existing methods learn
different condition guidance controls by introducing extra models or ignoring
the style prior knowledge, which is difficult to handle multiple signal
combinations and faces a low-fidelity problem. In this paper, we adapt both
style prior knowledge and flexibility of multi-modal control into one unified
two-stage framework, M6-Fashion, focusing on the practical AI-aided Fashion
design. It decouples style codes in both spatial and semantic dimensions to
guarantee high-fidelity image generation in the first stage. M6-Fashion
utilizes self-correction for the non-autoregressive generation to improve
inference speed, enhance holistic consistency, and support various signal
controls. Extensive experiments on a large-scale clothing dataset M2C-Fashion
demonstrate superior performances on various image generation and editing
tasks. M6-Fashion model serves as a highly potential AI designer for the
fashion industry.
- Abstract(参考訳): ファッション産業はマルチモーダル画像の生成と編集に様々な応用がある。
マルチモーダル条件信号を誘導として、所望の高忠実度画像を作成することを目的としている。
既存のほとんどの手法は、余分なモデルの導入や、複数の信号の組み合わせを扱うのが難しいスタイルの事前知識の無視により、異なる条件ガイダンス制御を学習する。
本稿では,マルチモーダル制御のスタイル事前知識と柔軟性の両方を,実用的なai支援ファッションデザインに着目した統合型2段階フレームワークm6-fashionに適用する。
空間次元と意味次元の両方でスタイルコードを分離し、第1段階で高忠実度画像生成を保証する。
M6-Fashionは非自己回帰生成の自己補正を利用して推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。
大規模な衣服データセットM2C-Fashionの大規模な実験は、様々な画像生成および編集タスクにおいて優れたパフォーマンスを示す。
m6-fashionモデルはファッション業界で非常に潜在的なaiデザイナーとして機能する。
関連論文リスト
- Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance
Field [25.18088588418456]
3Dスタイルの転送は、特定のスタイルで3Dシーンのスタイリングされたビューを生成することを目的としている。
既存の手法は、テクスチャの詳細とマルチモーダルガイダンスによるスタイル化による高品質なスタイル化の課題を依然として抱えている。
MM-NeRFと呼ばれるNeRFのマルチモーダル誘導型3次元多次元転送を提案する。
論文 参考訳(メタデータ) (2023-09-24T11:04:50Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - MMFL-Net: Multi-scale and Multi-granularity Feature Learning for
Cross-domain Fashion Retrieval [3.7045939497992917]
クロスドメインファッション検索は、C2S(Consumer-to-Shop)ドメインの幅広い相違により難しい課題である。
衣料品画像のグローバル・ローカル・アグリゲーション特徴表現を共同で学習できる新しいマルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。
提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性および製品IDラベルと組み合わせた。
論文 参考訳(メタデータ) (2022-10-27T02:25:52Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。