論文の概要: VICTOR: Visual Incompatibility Detection with Transformers and
Fashion-specific contrastive pre-training
- arxiv url: http://arxiv.org/abs/2207.13458v1
- Date: Wed, 27 Jul 2022 11:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:59:49.462379
- Title: VICTOR: Visual Incompatibility Detection with Transformers and
Fashion-specific contrastive pre-training
- Title(参考訳): VICTOR:トランスフォーマーによる視覚不整合検出とファッション特化コントラスト事前学習
- Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos,
Ioannis Kompatsiaris
- Abstract要約: Visual InCompatibility TransfORmer (VICTOR) は、1) 回帰としての全体的な互換性、2) ミスマッチアイテムの検出の2つのタスクに最適化されている。
Polyvore-MISFITと呼ばれる新しいデータセットを作成し、部分的にミスマッチした服を生成するために、Polyvoreの服のベンチマークを構築した。
一連のアブレーションと比較分析により、提案されたアーキテクチャは、現在のPolyvoreデータセットの最先端を競合し、越えることが可能であることを示している。
- 参考スコア(独自算出の注目度): 18.753508811614644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In order to consider fashion outfits as aesthetically pleasing, the garments
that constitute them need to be compatible in terms of visual aspects, such as
style, category and color. With the advent and omnipresence of computer vision
deep learning models, increased interest has also emerged for the task of
visual compatibility detection with the aim to develop quality fashion outfit
recommendation systems. Previous works have defined visual compatibility as a
binary classification task with items in a garment being considered as fully
compatible or fully incompatible. However, this is not applicable to Outfit
Maker applications where users create their own outfits and need to know which
specific items may be incompatible with the rest of the outfit. To address
this, we propose the Visual InCompatibility TransfORmer (VICTOR) that is
optimized for two tasks: 1) overall compatibility as regression and 2) the
detection of mismatching items. Unlike previous works that either rely on
feature extraction from ImageNet-pretrained models or by end-to-end fine
tuning, we utilize fashion-specific contrastive language-image pre-training for
fine tuning computer vision neural networks on fashion imagery. Moreover, we
build upon the Polyvore outfit benchmark to generate partially mismatching
outfits, creating a new dataset termed Polyvore-MISFITs, that is used to train
VICTOR. A series of ablation and comparative analyses show that the proposed
architecture can compete and even surpass the current state-of-the-art on
Polyvore datasets while reducing the instance-wise floating operations by 88%,
striking a balance between high performance and efficiency.
- Abstract(参考訳): ファッションの衣装を美観的に心地よいものと考えるためには、それらを構成する衣料品は、スタイル、カテゴリー、色といった視覚面の面で互換性を持たなければならない。
コンピュータビジョン深層学習モデルの出現と全能化に伴い、高品質なファッションファッションレコメンデーションシステムの開発を目的とした視覚的互換性検出の課題への関心が高まっている。
以前の作品では、視覚的互換性は、服のアイテムが完全に互換性があるか、完全に互換性がないと見なされる二項分類タスクとして定義されていた。
しかし、これは、ユーザーが独自の衣装を作成し、どの特定のアイテムが他の服と互換性がないかを知る必要があるOutfit Makerアプリケーションには当てはまらない。
これを解決するために,2つのタスクに最適化されたVisual InCompatibility TransfORmer (VICTOR)を提案する。
1)レグレッションと全体的な互換性
2)ミスマッチ品の検出。
ImageNet-pretrainedモデルからの特徴抽出やエンドツーエンドの微調整に頼っていた従来の研究とは異なり、ファッション特有のコントラスト言語画像事前学習を用いて、ファッションイメージに基づくコンピュータビジョンニューラルネットワークの微調整を行う。
さらに、Polyvore装束ベンチマークを構築し、部分的にミスマッチした衣装を生成し、VICTORのトレーニングに使用されるPolyvore-MISFITと呼ばれる新しいデータセットを作成する。
一連のアブレーションと比較分析により、提案されたアーキテクチャは、現在のPolyvoreデータセットの最先端を越えながら、インスタンス単位の浮動小数点演算を88%削減し、ハイパフォーマンスと効率のバランスを崩すことが示されている。
関連論文リスト
- IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Fashion Recommendation: Outfit Compatibility using GNN [0.0]
装束を表すためにグラフを用いた既存の2つのアプローチに従う。
ノードワイズグラフニューラルネットワーク(NGNN)とハイパーグラフニューラルネットワーク(Hypergraph Neural Network)はどちらも、アイテムの配置互換性に応じてアイテムのセットをスコアすることを目的としている。
このデータのサブセットの分析を再現し、2つのタスクで既存の2つのモデルを比較します。 空白(FITB:Fill in the empty) – 衣装を完成させるアイテムを見つけ出し、適合性予測: 衣装としてグループ化されたさまざまなアイテムの互換性を推定します。
論文 参考訳(メタデータ) (2024-04-28T00:57:17Z) - MV-VTON: Multi-View Virtual Try-On with Diffusion Models [91.71150387151042]
画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
既存の方法は、前頭服を用いた正面試着のみに焦点をあてる方法である。
本稿では,服の複数ビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を紹介する。
論文 参考訳(メタデータ) (2024-04-26T12:27:57Z) - Transformer-based Graph Neural Networks for Outfit Generation [22.86041284499166]
TGNNは、畳み込みグラフニューラルネットワークにおけるメッセージパッシングステップとして、多面的な自己注意を利用して、グラフ内の衣服アイテム間の関係をキャプチャする。
畳み込みグラフニューラルネットワークにおけるメッセージパッシングステップとして,多面的な自己注意を利用して,グラフ内の衣服アイテム間の関係をキャプチャするトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-17T09:18:45Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Learning Fashion Compatibility from In-the-wild Images [6.591937706757015]
筆者らは,自己教師型学習を通じて,現在地にあるストリートファッション画像から,互換性予測のための表現を学習する。
本研究の前提課題は、同一人物が着用する異なる項目の表現が、他人が着用するものよりも近いように定式化されている。
ファッションコンフィグレーションベンチマークとして,Polyvore と Polyvore-Disjoint の2種類について実験を行った。
論文 参考訳(メタデータ) (2022-06-13T09:05:25Z) - OutfitTransformer: Learning Outfit Representations for Fashion
Recommendation [6.890771095769622]
本稿では,全項目間の互換性関係を符号化した効果的な衣服レベルの表現を学習するフレームワークであるOutfitTransformerを提案する。
互換性予測のために,グローバルな装束表現を捕捉し,分類損失を用いてフレームワークを訓練するための装束トークンを設計する。
補完的な項目検索のために,対象項目の仕様を考慮に入れたターゲット項目トークンを設計する。
生成されたターゲットアイテムの埋め込みは、残りの服にマッチする互換性のあるアイテムを検索するために使用される。
論文 参考訳(メタデータ) (2022-04-11T00:55:40Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z) - Cloth Interactive Transformer for Virtual Try-On [106.21605249649957]
本稿では,仮想試行作業のための2段階のインタラクティブトランス (CIT) 手法を提案する。
第1段階では, CITマッチングブロックを設計し, 着物非依存者情報と着物内布情報との長距離相関関係を正確に把握することを目的とした。
第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。
論文 参考訳(メタデータ) (2021-04-12T14:45:32Z) - Fashion Recommendation and Compatibility Prediction Using Relational
Network [18.13692056232815]
我々は、新しい互換性学習モデルを開発するための関係ネットワーク(RN)を開発する。
FashionRNは、任意の数のアイテムを任意の順序で、服全体の互換性を学習する。
我々はPolyvoreのウェブサイトから収集した49,740の服の大規模なデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2020-05-13T21:00:54Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。