論文の概要: Quality and Quantity: Unveiling a Million High-Quality Images for
Text-to-Image Synthesis in Fashion Design
- arxiv url: http://arxiv.org/abs/2311.12067v1
- Date: Sun, 19 Nov 2023 06:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:37:19.226851
- Title: Quality and Quantity: Unveiling a Million High-Quality Images for
Text-to-Image Synthesis in Fashion Design
- Title(参考訳): 質と量:ファッションデザインにおけるテキストから画像への合成のための100万枚の高品質画像
- Authors: Jia Yu, Lichao Zhang, Zijie Chen, Fayu Pan, MiaoMiao Wen, Yuming Yan,
Fangsheng Weng, Shuai Zhang, Lili Pan, Zhenzhong Lan
- Abstract要約: Fashion-Diffusion データセットは,多年にわたる厳格な努力の成果である。
データセットは100万以上の高品質なファッションイメージで構成されており、詳細なテキスト記述と組み合わせている。
T2Iに基づくファッションデザイン分野の標準化を促進するために,ファッションデザインモデルの性能評価のための新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 15.07430279883459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fusion of AI and fashion design has emerged as a promising research area.
However, the lack of extensive, interrelated data on clothing and try-on stages
has hindered the full potential of AI in this domain. Addressing this, we
present the Fashion-Diffusion dataset, a product of multiple years' rigorous
effort. This dataset, the first of its kind, comprises over a million
high-quality fashion images, paired with detailed text descriptions. Sourced
from a diverse range of geographical locations and cultural backgrounds, the
dataset encapsulates global fashion trends. The images have been meticulously
annotated with fine-grained attributes related to clothing and humans,
simplifying the fashion design process into a Text-to-Image (T2I) task. The
Fashion-Diffusion dataset not only provides high-quality text-image pairs and
diverse human-garment pairs but also serves as a large-scale resource about
humans, thereby facilitating research in T2I generation. Moreover, to foster
standardization in the T2I-based fashion design field, we propose a new
benchmark comprising multiple datasets for evaluating the performance of
fashion design models. This work represents a significant leap forward in the
realm of AI-driven fashion design, setting a new standard for future research
in this field.
- Abstract(参考訳): aiとファッションデザインの融合は有望な研究分野として現れてきた。
しかし、衣料品や試着段階に関する広範な相互関連データが欠如していることは、この領域におけるAIの潜在能力を妨げている。
そこで本研究では,複数年にわたる厳格な努力の成果であるファッション・ディフフュージョンデータセットを提案する。
このデータセットは、100万以上の高品質なファッション画像で構成され、詳細なテキスト記述と組み合わせられている。
さまざまな地理的位置と文化的背景から得られたデータセットは、世界的なファッショントレンドをカプセル化している。
この画像には、衣服や人間に関連する細かい属性が刻まれており、ファッションデザインプロセスを単純化してテキスト・ツー・イメージ(T2I)タスクにしている。
Fashion-Diffusionデータセットは、高品質なテキストイメージペアと多様なヒューマンガーメントペアを提供するだけでなく、人間に関する大規模なリソースとしても機能し、T2I世代の研究を促進する。
さらに、t2iベースのファッションデザイン分野における標準化を促進するために、ファッションデザインモデルの性能評価のための複数のデータセットからなる新しいベンチマークを提案する。
この研究は、AI駆動のファッションデザインの領域における大きな飛躍であり、この分野における将来の研究のための新しい標準を確立している。
関連論文リスト
- DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文 参考訳(メタデータ) (2024-03-21T20:43:10Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - FIRST: A Million-Entry Dataset for Text-Driven Fashion Synthesis and
Design [10.556799226837535]
リッチ構造化テキスト(FIRST)記述を用いた100万枚の高解像度ファッション画像からなる新しいデータセットを提案する。
FISRTでトレーニングされた一般的な生成モデルの実験は、FIRSTの必要性を示している。
私たちはコミュニティに、よりインテリジェントなファッション合成とデザインシステムの開発を依頼します。
論文 参考訳(メタデータ) (2023-11-13T15:50:25Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - From Culture to Clothing: Discovering the World Events Behind A Century
of Fashion Images [100.20851232528925]
本稿では,着る衣服に影響を及ぼす特定の文化的要因を特定するための,データ駆動型アプローチを提案する。
私たちの仕事は、計算的、スケーラブルで、簡単にリフレッシュ可能なアプローチによる、カルチャーと衣服のリンクに向けた第一歩です。
論文 参考訳(メタデータ) (2021-02-02T18:58:21Z) - FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal
Retrieval [31.822218310945036]
FashionBERTはテキストや画像のハイレベルな表現を学習する。
FashionBERTは、ベースラインや最先端のアプローチよりもパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2020-05-20T00:41:00Z) - A Strong Baseline for Fashion Retrieval with Person Re-Identification
Models [0.0]
ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。
ファッション検索のためのシンプルなベースラインモデルを導入する。
Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。
論文 参考訳(メタデータ) (2020-03-09T12:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。