論文の概要: HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image
- arxiv url: http://arxiv.org/abs/2505.23186v1
- Date: Thu, 29 May 2025 07:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.738053
- Title: HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image
- Title(参考訳): HiGarment:Flat SketchからRealistic Garment Imageのためのクロスモーダル高調波拡散モデル
- Authors: Junyi Guo, Jingxuan Zhang, Fangyu Wu, Huanda Lu, Qiufeng Wang, Wenmian Yang, Eng Gee Lim, Dongming Lu,
- Abstract要約: HiGarmentは、テキストおよび視覚的モダリティ間のファブリック表現を強化する新しいフレームワークである。
本研究では,フラットスケッチとテキストガイダンスを統合し,リアルな衣料品画像を生成するFlat Sketch to Realistic Garment Image (FS2RG)を提案する。
衣料品生成のための最大のオープンソースデータセットであるMulti-modal Detailed Garmentを収集する。
- 参考スコア(独自算出の注目度): 20.177936034245572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based garment synthesis tasks primarily focus on the design phase in the fashion domain, while the garment production process remains largely underexplored. To bridge this gap, we introduce a new task: Flat Sketch to Realistic Garment Image (FS2RG), which generates realistic garment images by integrating flat sketches and textual guidance. FS2RG presents two key challenges: 1) fabric characteristics are solely guided by textual prompts, providing insufficient visual supervision for diffusion-based models, which limits their ability to capture fine-grained fabric details; 2) flat sketches and textual guidance may provide conflicting information, requiring the model to selectively preserve or modify garment attributes while maintaining structural coherence. To tackle this task, we propose HiGarment, a novel framework that comprises two core components: i) a multi-modal semantic enhancement mechanism that enhances fabric representation across textual and visual modalities, and ii) a harmonized cross-attention mechanism that dynamically balances information from flat sketches and text prompts, allowing controllable synthesis by generating either sketch-aligned (image-biased) or text-guided (text-biased) outputs. Furthermore, we collect Multi-modal Detailed Garment, the largest open-source dataset for garment generation. Experimental results and user studies demonstrate the effectiveness of HiGarment in garment synthesis. The code and dataset will be released.
- Abstract(参考訳): 拡散に基づく衣服合成タスクは、主にファッションドメインの設計フェーズに焦点をあてるが、衣料製造プロセスは未熟なままである。
このギャップを埋めるために、フラットスケッチからリアルガーメントイメージ(FS2RG)という新しいタスクを導入し、フラットスケッチとテキストガイダンスを統合してリアルな衣料品画像を生成する。
FS2RGは2つの重要な課題を提示している。
1) ファブリックの特徴は、単にテキストプロンプトによって導かれ、拡散モデルに対する視覚的監督が不十分であり、きめ細かいファブリックの細部を捉える能力に制限がある。
2 フラットスケッチ及びテキストガイダンスは、構造的コヒーレンスを維持しつつ、衣服の属性を選択的に保存又は修正することを要求する、矛盾する情報を提供することができる。
この課題に対処するために,2つのコアコンポーネントからなる新しいフレームワークであるHiGarmentを提案する。
一 テクスト及び視覚的モダリティ間のファブリック表現を高めるマルチモーダルセマンティックエンハンスメント機構
二 平らなスケッチ及びテキストプロンプトからの情報を動的にバランスさせ、スケッチ整列(画像バイアス)又はテキスト案内(テキストバイアス)出力を生成して制御可能な合成を可能にする調和した相互注意機構。
さらに,衣料品生成のためのオープンソースデータセットとして最大であるMulti-modal Detailed Garmentを収集する。
服用合成におけるHiGarmentの有効性を実験的に検証した。
コードとデータセットがリリースされる。
関連論文リスト
- IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design [44.46962562795136]
IMAGGarment-1はきめ細かい衣服生成フレームワークである。
シルエット、色、ロゴの配置を正確に制御し、高忠実な衣服合成を可能にする。
論文 参考訳(メタデータ) (2025-04-17T17:59:47Z) - Fine-Grained Controllable Apparel Showcase Image Generation via Garment-Centric Outpainting [39.50293003775675]
潜在拡散モデル(LDM)に基づく新しい衣服中心のアウトペイント(GCO)フレームワークを提案する。
提案フレームワークは,テキストプロンプトと顔画像を用いて,所定の衣服を身に着けたファッションモデルをカスタマイズすることを目的としている。
論文 参考訳(メタデータ) (2025-03-03T08:30:37Z) - AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models [7.534556848810697]
衣服とパーソナライズされたテキストプロンプトの組み合わせで条件付き文字をカスタマイズする新しいAnyDressing法を提案する。
AnyDressingはGarmentsNetとDressingNetという2つの主要なネットワークで構成されており、それぞれが詳細な衣料品の特徴を抽出することを目的としている。
衣服のきめ細かいテクスチャの詳細を改善するため,ガーメント強化テクスチャ学習戦略を導入する。
論文 参考訳(メタデータ) (2024-12-05T13:16:47Z) - Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - Multi-Garment Customized Model Generation [3.1679243514285194]
マルチゲージカスタマイズモデル生成は、潜在拡散モデル(LDM)に基づく統合フレームワークである
本フレームワークは,脱結合型マルチガーメント機能融合による複数衣服の条件生成を支援する。
提案する衣料エンコーダは,他の拡張モジュールと組み合わせることができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2024-08-09T17:57:33Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal
Fashion Design [66.68194916359309]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。
MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。
ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文 参考訳(メタデータ) (2022-08-11T03:44:02Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。