論文の概要: Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval
- arxiv url: http://arxiv.org/abs/2301.13014v2
- Date: Fri, 26 Apr 2024 05:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-29 18:37:21.908760
- Title: Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval
- Title(参考訳): 微粒ファッション検索のための属性ガイド型マルチレベルアテンションネットワーク
- Authors: Ling Xiao, Toshihiko Yamasaki,
- Abstract要約: 本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
- 参考スコア(独自算出の注目度): 27.751399400911932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained fashion retrieval searches for items that share a similar attribute with the query image. Most existing methods use a pre-trained feature extractor (e.g., ResNet 50) to capture image representations. However, a pre-trained feature backbone is typically trained for image classification and object detection, which are fundamentally different tasks from fine-grained fashion retrieval. Therefore, existing methods suffer from a feature gap problem when directly using the pre-trained backbone for fine-tuning. To solve this problem, we introduce an attribute-guided multi-level attention network (AG-MAN). Specifically, we first enhance the pre-trained feature extractor to capture multi-level image embedding, thereby enriching the low-level features within these representations. Then, we propose a classification scheme where images with the same attribute, albeit with different values, are categorized into the same class. This can further alleviate the feature gap problem by perturbing object-centric feature learning. Moreover, we propose an improved attribute-guided attention module for extracting more accurate attribute-specific representations. Our model consistently outperforms existing attention based methods when assessed on the FashionAI (62.8788% in MAP), DeepFashion (8.9804% in MAP), and Zappos50k datasets (93.32% in Prediction accuracy). Especially, ours improves the most typical ASENet_V2 model by 2.12%, 0.31%, and 0.78% points in FashionAI, DeepFashion, and Zappos50k datasets, respectively. The source code is available in https://github.com/Dr-LingXiao/AG-MAN.
- Abstract(参考訳): 類似の属性とクエリ画像を共有する項目をきめ細かいファッション検索で検索する。
既存のほとんどのメソッドでは、イメージ表現をキャプチャするために事前訓練された特徴抽出器(例:ResNet 50)を使用している。
しかしながら、事前訓練された特徴バックボーンは、通常、きめ細かいファッション検索と根本的に異なるタスクである画像分類とオブジェクト検出のために訓練される。
そのため、既存の手法は、訓練済みのバックボーンを直接使用して微調整を行う際に、特徴ギャップの問題に悩まされる。
この問題を解決するために,属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を導入する。
具体的には、まず事前訓練された特徴抽出器を拡張し、多層画像の埋め込みをキャプチャし、これらの表現内の低レベル特徴を豊かにする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
これにより、オブジェクト中心の機能学習を摂動させることで、特徴ギャップの問題をさらに緩和することができる。
さらに,より正確な属性固有表現を抽出するための改良された属性誘導型アテンションモジュールを提案する。
我々のモデルは、FashionAI (MAPで62.8788%)、DeepFashion (MAPで8.9804%)、Zappos50kデータセット (予測精度93.32%)で評価された場合、既存の注意ベースの手法よりも一貫して優れている。
特に当社では,FashionAI,DeepFashion,Zappos50kの各データセットにおいて,最も一般的なASENet_V2モデルを2.12%,0.31%,0.78%改善しています。
ソースコードはhttps://github.com/Dr-LingXiao/AG-MANで入手できる。
関連論文リスト
- Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Supervised Attribute Information Removal and Reconstruction for Image
Manipulation [15.559224431459551]
本稿では,そのような情報の隠蔽を防止する属性情報除去・再構築ネットワークを提案する。
我々は,DeepFashion Synthesis,DeepFashion Fine-fine Attribute,CelebA,CelebA-HQなど,さまざまな属性を持つ4つの多様なデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-13T23:30:44Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Shaping Visual Representations with Attributes for Few-Shot Learning [5.861206243996454]
少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。
近年,メートル法に基づく数ショット学習法は有望な性能を達成している。
本稿では,属性型学習(ASL)を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:16:19Z) - FashionSearchNet-v2: Learning Attribute Representations with
Localization for Image Retrieval with Attribute Manipulation [22.691709684780292]
提案されているFashionSearchNet-v2アーキテクチャは、その弱教師付きローカライゼーションモジュールを利用して属性固有の表現を学習することができる。
ネットワークは属性分類と三重項ランキング損失の組み合わせで共同で訓練され、局所表現を推定する。
FashionSearchNet-v2は、属性数の観点からリッチないくつかのデータセットで実施された実験により、他の最先端属性操作技術よりも優れていた。
論文 参考訳(メタデータ) (2021-11-28T13:50:20Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。