Fugu-MT 論文翻訳(概要): Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification

論文の概要: Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification

arxiv url: http://arxiv.org/abs/2307.09715v1
Date: Wed, 19 Jul 2023 01:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 15:36:20.531159
Title: Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification
Title（参考訳）: マルチラベル画像分類のためのsemantic-aware dual contrastive learning
Authors: Leilei Ma, Dengdi Sun, Lei Wang, Haifang Zhao and Bin Luo
Abstract要約: 本稿では,サンプル対サンプルのコントラスト学習を取り入れた,セマンティック・アウェアな2つのコントラスト学習フレームワークを提案する。具体的には、セマンティック・アウェアな表現学習を活用して、カテゴリに関連する局所的識別特徴を抽出する。提案手法は, 最先端の手法よりも有効であり, 性能も優れている。
参考スコア（独自算出の注目度）: 10.212921986345247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extracting image semantics effectively and assigning corresponding labels to multiple objects or attributes for natural images is challenging due to the complex scene contents and confusing label dependencies. Recent works have focused on modeling label relationships with graph and understanding object regions using class activation maps (CAM). However, these methods ignore the complex intra- and inter-category relationships among specific semantic features, and CAM is prone to generate noisy information. To this end, we propose a novel semantic-aware dual contrastive learning framework that incorporates sample-to-sample contrastive learning (SSCL) as well as prototype-to-sample contrastive learning (PSCL). Specifically, we leverage semantic-aware representation learning to extract category-related local discriminative features and construct category prototypes. Then based on SSCL, label-level visual representations of the same category are aggregated together, and features belonging to distinct categories are separated. Meanwhile, we construct a novel PSCL module to narrow the distance between positive samples and category prototypes and push negative samples away from the corresponding category prototypes. Finally, the discriminative label-level features related to the image content are accurately captured by the joint training of the above three parts. Experiments on five challenging large-scale public datasets demonstrate that our proposed method is effective and outperforms the state-of-the-art methods. Code and supplementary materials are released on https://github.com/yu-gi-oh-leilei/SADCL.
Abstract（参考訳）: 画像のセマンティクスを効果的に抽出し、対応するラベルを複数のオブジェクトや属性に割り当てることは、複雑なシーンの内容とラベル依存の混乱のために困難である。最近の研究はグラフとのラベル関係のモデル化とクラスアクティベーションマップ(CAM)を用いたオブジェクト領域の理解に焦点を当てている。しかし、これらの手法は、特定の意味的特徴間の複雑なカテゴリー内およびカテゴリー間関係を無視し、CAMはノイズの多い情報を生成する傾向にある。そこで本研究では,サンプルからサンプルへのコントラスト学習 (sscl) とプロトタイプからサンプルへのコントラスト学習 (pscl) を併用した,新しいセマンティクス・アウェア・デュアルコントラスト学習フレームワークを提案する。具体的には,セマンティクス・アウェア表現学習を用いて,カテゴリー関連局所識別特徴の抽出とカテゴリプロトタイプの構築を行う。そして、ssclに基づいて、同一カテゴリのラベルレベルの視覚的表現を集約し、異なるカテゴリに属する特徴を分離する。一方, 正のサンプルとカテゴリのプロトタイプとの距離を狭め, 負のサンプルを対応するカテゴリのプロトタイプから遠ざける新しいpsclモジュールを構築した。そして、上記3つの部品の合同訓練により、画像内容に関する識別ラベルレベル特徴を正確に取得する。 5つの挑戦的な大規模公開データセットの実験により,提案手法が有効であり,最先端の手法よりも優れていることを示す。コードと補足資料はhttps://github.com/yu-gi-oh-leilei/SADCLで公開されている。

関連論文リスト

Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文参考訳（メタデータ） (2025-04-04T08:15:08Z)
Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation [13.640757848445835]
画素レベルのアノテーションのコストが高いため,画像レベルのラベル付き画像セグメント化の弱さが注目されている。クラスアクティベーションマップ(CAM)を用いた伝統的な手法は、しばしば最も差別的な領域のみをハイライトする。
論文参考訳（メタデータ） (2025-03-15T09:55:31Z)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-14T14:31:36Z)
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-02T13:43:32Z)
Multi-Granularity Denoising and Bidirectional Alignment for Weakly Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。 MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文参考訳（メタデータ） (2023-05-09T03:33:43Z)
Learning Disentangled Label Representations for Multi-label Classification [39.97251974500034]
One-Shared-Feature-for-Multiple-Labels (OFML) は識別ラベルの特徴を学習するのに役立ちません。我々は,One-specific-Feature-for-One-Label(OFOL)機構を導入し,新しいアンタングル付きラベル特徴学習フレームワークを提案する。 8つのデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-02T21:49:34Z)
Dual-Perspective Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文参考訳（メタデータ） (2022-05-26T00:33:44Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。 MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文参考訳（メタデータ） (2022-03-04T07:56:16Z)
Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-01-27T18:56:46Z)
Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文参考訳（メタデータ） (2021-01-20T05:46:21Z)
Deep Active Learning for Joint Classification & Segmentation with Weak Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2020-10-10T03:25:54Z)
Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。 IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文参考訳（メタデータ） (2020-07-23T06:22:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。