論文の概要: MMFL-Net: Multi-scale and Multi-granularity Feature Learning for
Cross-domain Fashion Retrieval
- arxiv url: http://arxiv.org/abs/2210.15128v1
- Date: Thu, 27 Oct 2022 02:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:42:00.071758
- Title: MMFL-Net: Multi-scale and Multi-granularity Feature Learning for
Cross-domain Fashion Retrieval
- Title(参考訳): mmfl-net: クロスドメインファッション検索のためのマルチスケール・マルチグラニュラリティ特徴学習
- Authors: Chen Bao, Xudong Zhang, Jiazhou Chen, Yongwei Miao
- Abstract要約: クロスドメインファッション検索は、C2S(Consumer-to-Shop)ドメインの幅広い相違により難しい課題である。
衣料品画像のグローバル・ローカル・アグリゲーション特徴表現を共同で学習できる新しいマルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。
提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性および製品IDラベルと組み合わせた。
- 参考スコア(独自算出の注目度): 3.7045939497992917
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instance-level image retrieval in fashion is a challenging issue owing to its
increasing importance in real-scenario visual fashion search. Cross-domain
fashion retrieval aims to match the unconstrained customer images as queries
for photographs provided by retailers; however, it is a difficult task due to a
wide range of consumer-to-shop (C2S) domain discrepancies and also considering
that clothing image is vulnerable to various non-rigid deformations. To this
end, we propose a novel multi-scale and multi-granularity feature learning
network (MMFL-Net), which can jointly learn global-local aggregation feature
representations of clothing images in a unified framework, aiming to train a
cross-domain model for C2S fashion visual similarity. First, a new
semantic-spatial feature fusion part is designed to bridge the semantic-spatial
gap by applying top-down and bottom-up bidirectional multi-scale feature
fusion. Next, a multi-branch deep network architecture is introduced to capture
global salient, part-informed, and local detailed information, and extracting
robust and discrimination feature embedding by integrating the similarity
learning of coarse-to-fine embedding with the multiple granularities. Finally,
the improved trihard loss, center loss, and multi-task classification loss are
adopted for our MMFL-Net, which can jointly optimize intra-class and
inter-class distance and thus explicitly improve intra-class compactness and
inter-class discriminability between its visual representations for feature
learning. Furthermore, our proposed model also combines the multi-task
attribute recognition and classification module with multi-label semantic
attributes and product ID labels. Experimental results demonstrate that our
proposed MMFL-Net achieves significant improvement over the state-of-the-art
methods on the two datasets, DeepFashion-C2S and Street2Shop.
- Abstract(参考訳): 実際のビジュアルファッション検索の重要性が高まっているため、ファッションにおけるインスタンスレベルの画像検索は難しい問題である。
クロスドメインファッション検索は、制約のない顧客イメージを、小売業者が提供した写真のクェリに合わせることを目的としているが、多種多様な消費者間(C2S)ドメインの相違や、衣料品画像が様々な非剛性変形に弱いことを考えると、難しい作業である。
そこで本研究では,C2Sファッションの視覚的類似性を考慮したクロスドメインモデルのトレーニングを目的とした,衣服画像のグローバルな集約特徴表現を統一的なフレームワークで共同学習可能な,マルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。
まず、トップダウンとボトムアップの双方向特徴融合を適用して、意味空間間ギャップを埋める新しい意味空間特徴融合部を設計する。
次に,大域的,部分的,局所的な詳細な情報を収集し,粗粒間埋め込みの類似性学習と多粒度を統合してロバストおよび識別特徴埋め込みを抽出するために,マルチブランチ深層ネットワークアーキテクチャを導入する。
最後に、MMFL-Netでは、クラス内とクラス間距離を協調的に最適化し、特徴学習のための視覚的表現間のクラス内コンパクト性とクラス間識別性を明確に向上させることができる。
さらに,提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性と製品IDラベルに組み合わせた。
実験の結果,提案したMMFL-Netは,DeepFashion-C2SとStreet2Shopの2つのデータセットの最先端手法よりも大幅に改善されていることがわかった。
関連論文リスト
- Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。