論文の概要: Semantic-Aware Dual Contrastive Learning for Multi-label Image
Classification
- arxiv url: http://arxiv.org/abs/2307.09715v2
- Date: Thu, 27 Jul 2023 09:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 19:09:03.208291
- Title: Semantic-Aware Dual Contrastive Learning for Multi-label Image
Classification
- Title(参考訳): マルチラベル画像分類のためのsemantic-aware dual contrastive learning
- Authors: Leilei Ma, Dengdi Sun, Lei Wang, Haifeng Zhao and Bin Luo
- Abstract要約: 本稿では,サンプル対サンプルのコントラスト学習を取り入れた,セマンティック・アウェアな2つのコントラスト学習フレームワークを提案する。
具体的には、セマンティック・アウェアな表現学習を活用して、カテゴリに関連する局所的識別特徴を抽出する。
提案手法は, 最先端の手法よりも有効であり, 性能も優れている。
- 参考スコア(独自算出の注目度): 10.475412265853492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting image semantics effectively and assigning corresponding labels to
multiple objects or attributes for natural images is challenging due to the
complex scene contents and confusing label dependencies. Recent works have
focused on modeling label relationships with graph and understanding object
regions using class activation maps (CAM). However, these methods ignore the
complex intra- and inter-category relationships among specific semantic
features, and CAM is prone to generate noisy information. To this end, we
propose a novel semantic-aware dual contrastive learning framework that
incorporates sample-to-sample contrastive learning (SSCL) as well as
prototype-to-sample contrastive learning (PSCL). Specifically, we leverage
semantic-aware representation learning to extract category-related local
discriminative features and construct category prototypes. Then based on SSCL,
label-level visual representations of the same category are aggregated
together, and features belonging to distinct categories are separated.
Meanwhile, we construct a novel PSCL module to narrow the distance between
positive samples and category prototypes and push negative samples away from
the corresponding category prototypes. Finally, the discriminative label-level
features related to the image content are accurately captured by the joint
training of the above three parts. Experiments on five challenging large-scale
public datasets demonstrate that our proposed method is effective and
outperforms the state-of-the-art methods. Code and supplementary materials are
released on https://github.com/yu-gi-oh-leilei/SADCL.
- Abstract(参考訳): 画像のセマンティクスを効果的に抽出し、対応するラベルを複数のオブジェクトや属性に割り当てることは、複雑なシーンの内容とラベル依存の混乱のために困難である。
最近の研究はグラフとのラベル関係のモデル化とクラスアクティベーションマップ(CAM)を用いたオブジェクト領域の理解に焦点を当てている。
しかし、これらの手法は、特定の意味的特徴間の複雑なカテゴリー内およびカテゴリー間関係を無視し、CAMはノイズの多い情報を生成する傾向にある。
そこで本研究では,サンプルからサンプルへのコントラスト学習 (sscl) とプロトタイプからサンプルへのコントラスト学習 (pscl) を併用した,新しいセマンティクス・アウェア・デュアルコントラスト学習フレームワークを提案する。
具体的には,セマンティクス・アウェア表現学習を用いて,カテゴリー関連局所識別特徴の抽出とカテゴリプロトタイプの構築を行う。
そして、ssclに基づいて、同一カテゴリのラベルレベルの視覚的表現を集約し、異なるカテゴリに属する特徴を分離する。
一方, 正のサンプルとカテゴリのプロトタイプとの距離を狭め, 負のサンプルを対応するカテゴリのプロトタイプから遠ざける新しいpsclモジュールを構築した。
そして、上記3つの部品の合同訓練により、画像内容に関する識別ラベルレベル特徴を正確に取得する。
5つの挑戦的な大規模公開データセットの実験により,提案手法が有効であり,最先端の手法よりも優れていることを示す。
コードと補足資料はhttps://github.com/yu-gi-oh-leilei/SADCLで公開されている。
関連論文リスト
- Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Learning Disentangled Label Representations for Multi-label
Classification [39.97251974500034]
One-Shared-Feature-for-Multiple-Labels (OFML) は識別ラベルの特徴を学習するのに役立ちません。
我々は,One-specific-Feature-for-One-Label(OFOL)機構を導入し,新しいアンタングル付きラベル特徴学習フレームワークを提案する。
8つのデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-02T21:49:34Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Deep Active Learning for Joint Classification & Segmentation with Weak
Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。
本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。
提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-10-10T03:25:54Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。