論文の概要: DiffCloth: Diffusion Based Garment Synthesis and Manipulation via
Structural Cross-modal Semantic Alignment
- arxiv url: http://arxiv.org/abs/2308.11206v1
- Date: Tue, 22 Aug 2023 05:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:06:03.083971
- Title: DiffCloth: Diffusion Based Garment Synthesis and Manipulation via
Structural Cross-modal Semantic Alignment
- Title(参考訳): DiffCloth: 構造的クロスモーダルセマンティックアライメントによる拡散型ガーメント合成と操作
- Authors: Xujie Zhang, Binbin Yang, Michael C. Kampffmeyer, Wenqing Zhang,
Shiyue Zhang, Guansong Lu, Liang Lin, Hang Xu, Xiaodan Liang
- Abstract要約: クロスモーダルな衣料品の合成と操作は、ファッションデザイナーが衣料品を作る方法に大きな恩恵をもたらすだろう。
クロスモーダルな衣服合成と操作のための拡散型パイプラインDiffClothを紹介する。
CM-Fashionベンチマークの実験により、DiffClothはどちらも最先端の衣服合成結果を得ることが示された。
- 参考スコア(独自算出の注目度): 124.57488600605822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-modal garment synthesis and manipulation will significantly benefit the
way fashion designers generate garments and modify their designs via flexible
linguistic interfaces.Current approaches follow the general text-to-image
paradigm and mine cross-modal relations via simple cross-attention modules,
neglecting the structural correspondence between visual and textual
representations in the fashion design domain. In this work, we instead
introduce DiffCloth, a diffusion-based pipeline for cross-modal garment
synthesis and manipulation, which empowers diffusion models with flexible
compositionality in the fashion domain by structurally aligning the cross-modal
semantics. Specifically, we formulate the part-level cross-modal alignment as a
bipartite matching problem between the linguistic Attribute-Phrases (AP) and
the visual garment parts which are obtained via constituency parsing and
semantic segmentation, respectively. To mitigate the issue of attribute
confusion, we further propose a semantic-bundled cross-attention to preserve
the spatial structure similarities between the attention maps of attribute
adjectives and part nouns in each AP. Moreover, DiffCloth allows for
manipulation of the generated results by simply replacing APs in the text
prompts. The manipulation-irrelevant regions are recognized by blended masks
obtained from the bundled attention maps of the APs and kept unchanged.
Extensive experiments on the CM-Fashion benchmark demonstrate that DiffCloth
both yields state-of-the-art garment synthesis results by leveraging the
inherent structural information and supports flexible manipulation with region
consistency.
- Abstract(参考訳): クロスモーダル衣料品の合成と操作は,ファッションデザイナーによる衣料品の生成やフレキシブルな言語インターフェースによるデザイン変更の方法に大きなメリットをもたらす。
そこで本研究では, クロスモーダルな衣服合成と操作のための拡散に基づくパイプラインであるDiffClothを紹介し, クロスモーダルな意味論を構造的に整列させることで, ファッション領域における柔軟な構成性を持つ拡散モデルを実現する。
具体的には、構成構文解析と意味セグメンテーションにより得られる言語属性・フレーズ(ap)と視覚服部との2部マッチング問題として、部分レベルのクロスモーダルアライメントを定式化する。
属性混同の問題を緩和するため,属性形容詞の注意マップと各APの名詞間の空間構造的類似性を維持するために,意味に満ちたクロスアテンションを提案する。
さらにDiffClothは、テキストプロンプト内のAPを置き換えることで、生成された結果の操作を可能にする。
操作非関連領域はAPの束縛された注目マップから得られる混合マスクによって認識され、変化しない。
CM-Fashionベンチマークの大規模な実験により、DiffClothはどちらも、固有の構造情報を活用し、領域の整合性による柔軟な操作をサポートすることにより、最先端の衣服合成結果を得ることを示した。
関連論文リスト
- Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation [38.0401463751139]
本稿では、フロンティアを前進させるための新しいスペクトルdEcomposed Token(SET)学習フレームワークを提案する。
特に、凍結されたVFM特徴は、まず周波数空間の位相成分と振幅成分に分解される。
提案手法は, 提案手法を用いて, 推論中におけるスタイル影響表現と静的トークンのギャップを埋める手法である。
論文 参考訳(メタデータ) (2024-07-26T07:50:48Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual
Cross-modal Structure-pivoted Alignment [81.00183950655924]
言語横断画像キャプションの欠如は、長い間、不適切な問題と相反する問題に悩まされてきた。
本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。
我々のキャプタには,意味構造誘導型画像-ピボットキャプションと構文構造誘導型ピボット・トゥ・ターゲット翻訳が含まれている。
論文 参考訳(メタデータ) (2023-05-20T18:30:03Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z) - Structured Multi-modal Feature Embedding and Alignment for
Image-Sentence Retrieval [12.050958976545914]
現在の最先端画像文検索手法は、視覚的テクスチャの断片を暗黙的に整列させる。
画像文検索のための構造的マルチモーダル特徴埋め込みとアライメントモデルを提案する。
特に、ビジュアルコンテキスト対応構造化木エンコーダ(VCS-Tree)とテキストコンテキスト対応構造化木エンコーダ(TCS-Tree)を共有ラベルで構築することにより、視覚的およびテキスト的フラグメントの関係をモデル化する。
論文 参考訳(メタデータ) (2021-08-05T07:24:54Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。