論文の概要: Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation
- arxiv url: http://arxiv.org/abs/2602.18309v1
- Date: Fri, 20 Feb 2026 16:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.372602
- Title: Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation
- Title(参考訳): ファッション画像生成のための局所テキストとスケッチのペアリングによるマルチレベルコンディショニング
- Authors: Ziyue Liu, Davide Talon, Federico Girella, Zanxi Ruan, Mattia Mondo, Loris Bazzani, Yiming Wang, Marco Cristani,
- Abstract要約: マルチレベルガイダンス(LOTS)を用いたローカライズテキストとスケッチを提案する。
LOTSは、グローバルスケッチガイダンスと複数のローカライズドスケッチテキストペアを組み合わせる。
画像毎に複数のテキスト-スケッチペアが提供される最初のファッションデータセットであるSketchyを開発する。
- 参考スコア(独自算出の注目度): 14.962452069195544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sketches offer designers a concise yet expressive medium for early-stage fashion ideation by specifying structure, silhouette, and spatial relationships, while textual descriptions complement sketches to convey material, color, and stylistic details. Effectively combining textual and visual modalities requires adherence to the sketch visual structure when leveraging the guidance of localized attributes from text. We present LOcalized Text and Sketch with multi-level guidance (LOTS), a framework that enhances fashion image generation by combining global sketch guidance with multiple localized sketch-text pairs. LOTS employs a Multi-level Conditioning Stage to independently encode local features within a shared latent space while maintaining global structural coordination. Then, the Diffusion Pair Guidance stage integrates both local and global conditioning via attention-based guidance within the diffusion model's multi-step denoising process. To validate our method, we develop Sketchy, the first fashion dataset where multiple text-sketch pairs are provided per image. Sketchy provides high-quality, clean sketches with a professional look and consistent structure. To assess robustness beyond this setting, we also include an "in the wild" split with non-expert sketches, featuring higher variability and imperfections. Experiments demonstrate that our method strengthens global structural adherence while leveraging richer localized semantic guidance, achieving improvement over state-of-the-art. The dataset, platform, and code are publicly available.
- Abstract(参考訳): スケッチはデザイナーに、構造、シルエット、空間的関係を規定することで、初期のファッションのアイデアを簡潔に表現できるが表現力のある媒体を提供する。
テキストと視覚のモダリティを効果的に組み合わせるには、テキストから局所化された属性のガイダンスを活用する際に、スケッチの視覚構造に固執する必要がある。
ローカライズされたテキストとスケッチをマルチレベルガイダンス(LOTS)で表現し,グローバルなスケッチガイダンスと複数のローカルなスケッチテキストペアを組み合わせることで,ファッションイメージ生成を促進するフレームワークを提案する。
LOTSは、グローバルな構造調整を維持しながら、共有潜在空間内の局所的特徴を独立に符号化するために、マルチレベルコンディショニングステージを採用している。
次に、拡散ペア誘導段階は、拡散モデルの多段階認知過程において、注意に基づくガイダンスを介して局所的条件と大域的条件の両方を統合する。
提案手法を検証するため,画像毎に複数のテキスト-スケッチペアが提供される最初のファッションデータセットであるSketchyを開発した。
Sketchyは、プロフェッショナルなルック&一貫性のある構造を備えた高品質でクリーンなスケッチを提供する。
この設定を超えてロバスト性を評価するために、非専門家のスケッチで分割された"in the wild"も含みます。
実験により,本手法はよりリッチな局所的セマンティックガイダンスを活用しながら,グローバルな構造的整合性を強化し,最先端技術よりも改善することを示す。
データセット、プラットフォーム、コードは公開されている。
関連論文リスト
- VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation [73.23035143627598]
ほとんどの生成モデルはスケッチを静的なイメージとして扱い、創造的な描画の根底にある時間構造を見渡す。
本稿では,事前学習したテキスト・ビデオ拡散モデルに適応した逐次スケッチ生成のためのデータ効率のよい手法を提案する。
本手法は,テキスト指定順序を忠実に追従する高品質なスケッチを生成するとともに,リッチな視覚的ディテールを示す。
論文 参考訳(メタデータ) (2026-02-17T18:55:03Z) - SketchAssist: A Practical Assistant for Semantic Edits and Precise Local Redrawing [13.733328072282049]
そこで,SketchAssistを提案する。SketchAssistは,命令誘導のグローバル編集と行誘導のリージョン再描画を一体化することで,作成を加速するインタラクティブスケッチ描画アシスタントである。
このアシスタントを大規模に実現するために、(i)属性のないベーススケッチから属性付加シーケンスを構築する制御可能なデータ生成パイプラインを導入し、(ii)クロスシーケンスサンプリングによりマルチステップ編集チェーンを作成し、(iii)スタイル保存型属性削除モデルでスタイルカバレッジを拡張する。
論文 参考訳(メタデータ) (2025-12-16T06:50:44Z) - Text to Sketch Generation with Multi-Styles [17.309370958875785]
本研究では,明示的なスタイル指導を可能にする拡散モデルに基づく学習自由フレームワークを提案する。
参照特徴を線形な平滑化を伴う補助情報として組み込んで,スタイルコンテンツ誘導機構を活用する。
提案手法は,高精度なスタイルアライメントとフレキシブルなスタイル制御により,高品質なスケッチ生成を実現する。
論文 参考訳(メタデータ) (2025-11-06T07:13:56Z) - LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing [13.90016469666642]
ファッション画像生成のためのLOTS(LOcalized Text and Sketch for fashion image generation)を提案する。
LOTSは、ペア化されたローカライズドスケッチ+テキスト情報の条件付けによるグローバルな記述を活用し、拡散適応のための新しいステップベースのマージ戦略を導入する。
提案手法を検証するため,Fashionpedia上に構築したSketchyは,画像毎に複数のテキスト-スケッチペアが提供される最初のファッションデータセットである。
論文 参考訳(メタデータ) (2025-07-30T12:48:29Z) - Recovering Partially Corrupted Objects via Sketch-Guided Bidirectional Feature Interaction [16.03488741913531]
テキスト誘導拡散モデルはテキストプロンプトを通じて高レベルの意味指導を提供する。
これらはしばしば、部分的に破損した物体に正確なピクセルレベルの空間制御を欠いている。
本研究では,事前訓練された安定拡散モデルに基づくスケッチ誘導双方向特徴相互作用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:34:31Z) - Bridging the Gap: Sketch-Aware Interpolation Network for High-Quality Animation Sketch Inbetweening [58.09847349781176]
我々は,新しい深層学習手法であるSketch-Aware Interpolation Network (SAIN)を提案する。
このアプローチには、領域レベルの対応、ストロークレベルの対応、ピクセルレベルのダイナミクスを定式化するマルチレベルガイダンスが組み込まれている。
マルチストリームのU-Transformerは、自己/クロスアテンション機構の統合により、これらのマルチレベルガイドを使用して、スケッチ間のインテンションパターンを特徴付けるように設計されている。
論文 参考訳(メタデータ) (2023-08-25T09:51:03Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。