論文の概要: LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing
- arxiv url: http://arxiv.org/abs/2507.22627v1
- Date: Wed, 30 Jul 2025 12:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.2056
- Title: LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing
- Title(参考訳): ファッションのLOTS! スケッチテキストペアリングによる画像生成のためのマルチコンディショニング
- Authors: Federico Girella, Davide Talon, Ziyue Liu, Zanxi Ruan, Yiming Wang, Marco Cristani,
- Abstract要約: ファッション画像生成のためのLOTS(LOcalized Text and Sketch for fashion image generation)を提案する。
LOTSは、ペア化されたローカライズドスケッチ+テキスト情報の条件付けによるグローバルな記述を活用し、拡散適応のための新しいステップベースのマージ戦略を導入する。
提案手法を検証するため,Fashionpedia上に構築したSketchyは,画像毎に複数のテキスト-スケッチペアが提供される最初のファッションデータセットである。
- 参考スコア(独自算出の注目度): 12.33060414705514
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fashion design is a complex creative process that blends visual and textual expressions. Designers convey ideas through sketches, which define spatial structure and design elements, and textual descriptions, capturing material, texture, and stylistic details. In this paper, we present LOcalized Text and Sketch for fashion image generation (LOTS), an approach for compositional sketch-text based generation of complete fashion outlooks. LOTS leverages a global description with paired localized sketch + text information for conditioning and introduces a novel step-based merging strategy for diffusion adaptation. First, a Modularized Pair-Centric representation encodes sketches and text into a shared latent space while preserving independent localized features; then, a Diffusion Pair Guidance phase integrates both local and global conditioning via attention-based guidance within the diffusion model's multi-step denoising process. To validate our method, we build on Fashionpedia to release Sketchy, the first fashion dataset where multiple text-sketch pairs are provided per image. Quantitative results show LOTS achieves state-of-the-art image generation performance on both global and localized metrics, while qualitative examples and a human evaluation study highlight its unprecedented level of design customization.
- Abstract(参考訳): ファッションデザインは、視覚的表現とテキスト的表現を混ぜ合わせた複雑な創造的プロセスである。
デザイナーは、空間構造とデザイン要素を定義するスケッチや、材料、テクスチャ、スタイリスティックな詳細をキャプチャするテキスト記述を通じてアイデアを伝達する。
本稿では,ファッション画像生成のためのローカライズドテキストとスケッチ(LOTS)を提案する。
LOTSは、ペア化されたローカライズドスケッチ+テキスト情報の条件付けによるグローバルな記述を活用し、拡散適応のための新しいステップベースのマージ戦略を導入する。
まず,Diffusion Pair Guidance フェーズは,拡散モデルの多段階認知過程において,局所的および大域的条件付けと統合し,スケッチとテキストを共有潜在空間にエンコードする。
提案手法を検証するため,Fashionpedia上に構築したSketchyは,画像毎に複数のテキスト-スケッチペアが提供される最初のファッションデータセットである。
定量的な結果から、LOTSはグローバルおよびローカライズドメトリクスの両方で最先端の画像生成性能を達成する一方で、定性的な例と人間の評価研究は、前例のない設計カスタマイズのレベルを強調している。
関連論文リスト
- StyleBlend: Enhancing Style-Specific Content Creation in Text-to-Image Diffusion Models [10.685779311280266]
StyleBlendは、限られた参照画像からスタイル表現を学習し、適用するために設計された手法である。
アプローチではスタイルを構成とテクスチャの2つのコンポーネントに分解し,それぞれが異なる戦略を通じて学習する。
論文 参考訳(メタデータ) (2025-02-13T08:26:54Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - HAIFIT: Human-to-AI Fashion Image Translation [6.034505799418777]
本稿では,スケッチを高忠実なライフスタイルの衣料品画像に変換する新しいアプローチであるHAIFITを紹介する。
本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。
論文 参考訳(メタデータ) (2024-03-13T16:06:07Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Sketch-to-Art: Synthesizing Stylized Art Images From Sketches [23.75420342238983]
スケッチから完全に詳細なアートスティル化されたイメージを合成するための新しいアプローチを提案する。
スケッチ、セマンティックタグなし、特定のスタイルの参照イメージが与えられたモデルでは、色やテクスチャで意味のある詳細を合成することができる。
論文 参考訳(メタデータ) (2020-02-26T19:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。