論文の概要: Learning Discriminative Representations for Multi-Label Image
Recognition
- arxiv url: http://arxiv.org/abs/2107.11159v1
- Date: Fri, 23 Jul 2021 12:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 17:29:21.349777
- Title: Learning Discriminative Representations for Multi-Label Image
Recognition
- Title(参考訳): 複数ラベル画像認識のための学習識別表現
- Authors: Mohammed Hassanin, Ibrahim Radwan, Salman Khan, Murat Tahtali
- Abstract要約: マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 13.13795708478267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label recognition is a fundamental, and yet is a challenging task in
computer vision. Recently, deep learning models have achieved great progress
towards learning discriminative features from input images. However,
conventional approaches are unable to model the inter-class discrepancies among
features in multi-label images, since they are designed to work for image-level
feature discrimination. In this paper, we propose a unified deep network to
learn discriminative features for the multi-label task. Given a multi-label
image, the proposed method first disentangles features corresponding to
different classes. Then, it discriminates between these classes via increasing
the inter-class distance while decreasing the intra-class differences in the
output space. By regularizing the whole network with the proposed loss, the
performance of applying the wellknown ResNet-101 is improved significantly.
Extensive experiments have been performed on COCO-2014, VOC2007 and VOC2012
datasets, which demonstrate that the proposed method outperforms
state-of-the-art approaches by a significant margin of 3:5% on large-scale COCO
dataset. Moreover, analysis of the discriminative feature learning approach
shows that it can be plugged into various types of multi-label methods as a
general module.
- Abstract(参考訳): マルチラベル認識は基本的なものであり、コンピュータビジョンでは難しい課題である。
近年,ディープラーニングモデルは入力画像から識別的特徴を学習する上で大きな進歩を遂げている。
しかし、従来の手法では、画像レベルの特徴識別のために設計されているため、マルチラベル画像の特徴間のクラス間差異をモデル化できない。
本稿では,マルチラベルタスクの識別特徴を学習するための統合深層ネットワークを提案する。
マルチラベル画像が与えられた場合、提案手法はまず異なるクラスに対応する特徴を分離する。
そして、出力空間におけるクラス内差を小さくしながら、クラス間距離を増大させ、これらのクラス間での識別を行う。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
COCO-2014、VOC2007、VOC2012データセットで大規模な実験が行われ、提案手法は大規模COCOデータセットでは3:5%の差で最先端のアプローチより優れていることを示した。
さらに,識別的特徴学習手法の解析により,汎用モジュールとして様々な種類のマルチラベルメソッドにプラグインできることが示されている。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Learning Reliable Representations for Incomplete Multi-View Partial
Multi-Label Classification [65.95823612309356]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Discriminative Feature Learning through Feature Distance Loss [0.0]
本研究は,多様なリッチベースモデルを組み合わせて,異なる重要な画像領域に着目して分類する手法を提案する。
ベンチマーク畳み込みニューラルネットワーク(VGG16, ResNet, AlexNet)、一般的なデータセット(Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX)の実験は、我々の手法の有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2022-05-23T20:01:32Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z) - Progressive Co-Attention Network for Fine-grained Visual Classification [20.838908090777885]
きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。
既存のほとんどの方法は個々の画像のみを入力とする。
そこで本研究では,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T10:19:02Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。