論文の概要: GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections
- arxiv url: http://arxiv.org/abs/2408.12352v2
- Date: Fri, 23 Aug 2024 05:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 10:14:02.486833
- Title: GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections
- Title(参考訳): GarmentAligner: 検索強化多レベル補正によるテキスト・ツー・ゲージ生成
- Authors: Shiyue Zhang, Zheng Chong, Xujie Zhang, Hanhui Li, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang,
- Abstract要約: GarmentAlignerは、検索強化マルチレベル補正で訓練されたテキスト間拡散モデルである。
コンポーネントレベルでのセマンティックアライメントを実現するために,自動コンポーネント抽出パイプラインを導入する。
衣服画像内の成分関係を活用すべく,各衣服の検索サブセットを構築した。
- 参考スコア(独自算出の注目度): 63.82168065819053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General text-to-image models bring revolutionary innovation to the fields of arts, design, and media. However, when applied to garment generation, even the state-of-the-art text-to-image models suffer from fine-grained semantic misalignment, particularly concerning the quantity, position, and interrelations of garment components. Addressing this, we propose GarmentAligner, a text-to-garment diffusion model trained with retrieval-augmented multi-level corrections. To achieve semantic alignment at the component level, we introduce an automatic component extraction pipeline to obtain spatial and quantitative information of garment components from corresponding images and captions. Subsequently, to exploit component relationships within the garment images, we construct retrieval subsets for each garment by retrieval augmentation based on component-level similarity ranking and conduct contrastive learning to enhance the model perception of components from positive and negative samples. To further enhance the alignment of components across semantic, spatial, and quantitative granularities, we propose the utilization of multi-level correction losses that leverage detailed component information. The experimental findings demonstrate that GarmentAligner achieves superior fidelity and fine-grained semantic alignment when compared to existing competitors.
- Abstract(参考訳): 一般的なテキスト・ツー・イメージモデルは、芸術、デザイン、メディアの分野に革新をもたらす。
しかし、衣料品生成に適用した場合、最先端のテクスト・ツー・イメージモデルでさえ、特に衣服部品の量、位置、相互関係に関して、細粒度のセマンティック・アライメントに悩まされる。
そこで本稿では,検索による多段階補正を訓練したテキストからガーメントへの拡散モデルであるGarmentAlignerを提案する。
コンポーネントレベルでのセマンティックアライメントを実現するため,自動コンポーネント抽出パイプラインを導入し,対応する画像やキャプションから衣服成分の空間的,定量的な情報を得る。
次に, 衣服画像中の成分関係を活用すべく, 成分レベルの類似度ランキングに基づく検索強化により, 各衣服の検索サブセットを構築し, 正および負のサンプルから成分のモデル知覚を高めるためにコントラスト学習を行う。
意味的,空間的,定量的な粒度にまたがるコンポーネントのアライメントを強化するために,詳細なコンポーネント情報を活用する多段階補正損失の利用を提案する。
実験結果から,GarmentAlignerは既存の競合相手と比較して優れた忠実度と微粒なセマンティックアライメントを実現することが示された。
関連論文リスト
- Unsupervised Part Discovery via Dual Representation Alignment [31.100169532078095]
オブジェクト部分は、様々な下流タスクにおいて重要な中間表現として機能します。
これまでの研究によると、Vision Transformerはラベルなしでインスタンスレベルの注意を学習できる。
本稿では,新しいパラダイムを用いた非教師なし部分特異的アテンション学習を実現する。
論文 参考訳(メタデータ) (2024-08-15T12:11:20Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Mitigating the Effect of Incidental Correlations on Part-based Learning [50.682498099720114]
部分ベースの表現は、より解釈可能で、限られたデータでより一般化できる。
パートベース表現のための2つの革新的な正規化手法を提案する。
我々は、ベンチマークデータセット上の数ショットの学習タスクに対して、最先端(SoTA)パフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-30T13:44:48Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - Learning Intrinsic Images for Clothing [10.21096394185778]
本稿では,衣料品画像の内在的画像分解に着目した。
より解釈可能なエッジ対応メトリックとアノテーションスキームは、テストセット用に設計されている。
提案モデルでは, 驚くほど細かな細部を保ちながら, テクスチャコピーのアーティファクトを著しく低減することを示した。
論文 参考訳(メタデータ) (2021-11-16T14:43:12Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z) - TailorGAN: Making User-Defined Fashion Designs [28.805686791183618]
そこで本研究では,2組のデータを使わずに,不整合特性を持つ衣服画像を合成する,新たな自己教師型モデルを提案する。
本手法は,再構築学習ステップと逆学習ステップから構成される。
このデータセットと実世界のサンプルを用いた実験により、我々の手法は最先端の手法よりもはるかに優れた結果を合成できることを示した。
論文 参考訳(メタデータ) (2020-01-17T16:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。