論文の概要: Learning Discriminative Representations for Multi-Label Image
Recognition
- arxiv url: http://arxiv.org/abs/2107.11159v1
- Date: Fri, 23 Jul 2021 12:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 17:29:21.349777
- Title: Learning Discriminative Representations for Multi-Label Image
Recognition
- Title(参考訳): 複数ラベル画像認識のための学習識別表現
- Authors: Mohammed Hassanin, Ibrahim Radwan, Salman Khan, Murat Tahtali
- Abstract要約: マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 13.13795708478267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label recognition is a fundamental, and yet is a challenging task in
computer vision. Recently, deep learning models have achieved great progress
towards learning discriminative features from input images. However,
conventional approaches are unable to model the inter-class discrepancies among
features in multi-label images, since they are designed to work for image-level
feature discrimination. In this paper, we propose a unified deep network to
learn discriminative features for the multi-label task. Given a multi-label
image, the proposed method first disentangles features corresponding to
different classes. Then, it discriminates between these classes via increasing
the inter-class distance while decreasing the intra-class differences in the
output space. By regularizing the whole network with the proposed loss, the
performance of applying the wellknown ResNet-101 is improved significantly.
Extensive experiments have been performed on COCO-2014, VOC2007 and VOC2012
datasets, which demonstrate that the proposed method outperforms
state-of-the-art approaches by a significant margin of 3:5% on large-scale COCO
dataset. Moreover, analysis of the discriminative feature learning approach
shows that it can be plugged into various types of multi-label methods as a
general module.
- Abstract(参考訳): マルチラベル認識は基本的なものであり、コンピュータビジョンでは難しい課題である。
近年,ディープラーニングモデルは入力画像から識別的特徴を学習する上で大きな進歩を遂げている。
しかし、従来の手法では、画像レベルの特徴識別のために設計されているため、マルチラベル画像の特徴間のクラス間差異をモデル化できない。
本稿では,マルチラベルタスクの識別特徴を学習するための統合深層ネットワークを提案する。
マルチラベル画像が与えられた場合、提案手法はまず異なるクラスに対応する特徴を分離する。
そして、出力空間におけるクラス内差を小さくしながら、クラス間距離を増大させ、これらのクラス間での識別を行う。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
COCO-2014、VOC2007、VOC2012データセットで大規模な実験が行われ、提案手法は大規模COCOデータセットでは3:5%の差で最先端のアプローチより優れていることを示した。
さらに,識別的特徴学習手法の解析により,汎用モジュールとして様々な種類のマルチラベルメソッドにプラグインできることが示されている。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Multi-label Cluster Discrimination for Visual Representation Learning [27.552024985952166]
本稿では,表現学習を強化するため,MLCDと呼ばれる新しいマルチラベルクラスタ識別手法を提案する。
本手法は,線形プローブ,ゼロショット分類,画像テキスト検索など,複数の下流タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-24T14:54:16Z) - High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。
HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。
また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文 参考訳(メタデータ) (2024-04-07T13:17:47Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Discriminative Feature Learning through Feature Distance Loss [0.0]
本研究は,多様なリッチベースモデルを組み合わせて,異なる重要な画像領域に着目して分類する手法を提案する。
ベンチマーク畳み込みニューラルネットワーク(VGG16, ResNet, AlexNet)、一般的なデータセット(Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX)の実験は、我々の手法の有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2022-05-23T20:01:32Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。