論文の概要: Semantic Embedded Deep Neural Network: A Generic Approach to Boost
Multi-Label Image Classification Performance
- arxiv url: http://arxiv.org/abs/2305.05228v3
- Date: Sat, 27 May 2023 22:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 00:31:37.043656
- Title: Semantic Embedded Deep Neural Network: A Generic Approach to Boost
Multi-Label Image Classification Performance
- Title(参考訳): Semantic Embedded Deep Neural Network: マルチラベル画像分類性能向上のためのジェネリックアプローチ
- Authors: Xin Shen, Xiaonan Zhao, Rui Luo
- Abstract要約: 本稿では,空間認識のセマンティックな特徴を応用するために,汎用的なセマンティック埋め込み型ディープニューラルネットワークを提案する。
Avg.relative Improvement of 15.27% in terms of AUC score across all labels than the baseline approach。
- 参考スコア(独自算出の注目度): 10.257208600853199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-grained multi-label classification models have broad applications in
Amazon production features, such as visual based label predictions ranging from
fashion attribute detection to brand recognition. One challenge to achieve
satisfactory performance for those classification tasks in real world is the
wild visual background signal that contains irrelevant pixels which confuses
model to focus onto the region of interest and make prediction upon the
specific region. In this paper, we introduce a generic semantic-embedding deep
neural network to apply the spatial awareness semantic feature incorporating a
channel-wise attention based model to leverage the localization guidance to
boost model performance for multi-label prediction. We observed an Avg.relative
improvement of 15.27% in terms of AUC score across all labels compared to the
baseline approach. Core experiment and ablation studies involve multi-label
fashion attribute classification performed on Instagram fashion apparels'
image. We compared the model performances among our approach, baseline
approach, and 3 alternative approaches to leverage semantic features. Results
show favorable performance for our approach.
- Abstract(参考訳): 細粒度のマルチラベル分類モデルは、ファッション属性の検出からブランド認識まで、視覚的なラベル予測など、amazonのプロダクション機能に幅広く応用されている。
実世界におけるこれらの分類タスクの満足な性能を達成するための課題の一つは、関心領域に焦点を絞って特定の領域に予測する無関係な画素を含む視覚的背景信号である。
本稿では,複数ラベル予測のためのモデル性能向上のための局所化ガイダンスを活用すべく,チャネル毎の注意に基づくモデルを取り入れた空間認識意味的特徴を応用した,汎用的意味埋め込み型深層ニューラルネットワークを提案する。
我々は,avg.relative improvement (avg.relative improvement) を全ラベルのaucスコアで15.27%向上させた。
コア実験とアブレーション研究は、Instagramのファッションアパレルの画像で実行されるマルチラベルファッション属性の分類を含む。
モデルのパフォーマンスを,我々のアプローチ,ベースラインアプローチ,セマンティック機能を活用する3つの代替アプローチと比較した。
結果は我々のアプローチに好成績を示した。
関連論文リスト
- A Deep Features-Based Approach Using Modified ResNet50 and Gradient Boosting for Visual Sentiments Classification [1.2434714657059942]
本研究は,ディープラーニングアルゴリズムと機械学習アルゴリズムの融合を開発する。
改良されたResNet50から深い特徴を抽出するために,多クラス分類のためのDeep Feature-based Methodが使用されている。
グラデーションブースティングアルゴリズムは感情的な内容を含む写真を分類するために使われてきた。
論文 参考訳(メタデータ) (2024-08-15T04:18:40Z) - Retinal IPA: Iterative KeyPoints Alignment for Multimodal Retinal Imaging [11.70130626541926]
マルチモダリティ網膜画像間のマッチングと登録を強化するために,クロスモダリティ特徴を学習するための新しいフレームワークを提案する。
本モデルでは,従来の学習に基づく特徴検出と記述手法の成功を例に挙げる。
同じ画像の異なるオーグメンテーション間のセグメンテーション一貫性を強制することにより、自己指導的な方法で訓練される。
論文 参考訳(メタデータ) (2024-07-25T19:51:27Z) - Weakly Supervised Semantic Segmentation by Knowledge Graph Inference [11.056545020611397]
本稿では、Wakly Supervised Semantic (WSSS)を強化するグラフ推論に基づくアプローチを提案する。
本研究の目的は,マルチラベル分類とセグメンテーションネットワークの段階を同時に拡張することで,WSSSを全体的改善することである。
PASCAL VOC 2012およびMS-COCOデータセット上でWSSSの最先端性能を達成した。
論文 参考訳(メタデータ) (2023-09-25T11:50:19Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Domain Adaptive Nuclei Instance Segmentation and Classification via
Category-aware Feature Alignment and Pseudo-labelling [65.40672505658213]
本稿では, UDA 核インスタンス分割と分類のための新しいディープニューラルネットワークである Category-Aware 機能アライメントと Pseudo-Labelling Network (CAPL-Net) を提案する。
我々のアプローチは、最先端のUDA手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2022-07-04T07:05:06Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Progressive Co-Attention Network for Fine-grained Visual Classification [20.838908090777885]
きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。
既存のほとんどの方法は個々の画像のみを入力とする。
そこで本研究では,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T10:19:02Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。