論文の概要: Learning Disentangled Label Representations for Multi-label
Classification
- arxiv url: http://arxiv.org/abs/2212.01461v1
- Date: Fri, 2 Dec 2022 21:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:58:22.703004
- Title: Learning Disentangled Label Representations for Multi-label
Classification
- Title(参考訳): 複数ラベル分類のためのアンタングル付きラベル表現の学習
- Authors: Jian Jia, Fei He, Naiyu Gao, Xiaotang Chen, Kaiqi Huang
- Abstract要約: One-Shared-Feature-for-Multiple-Labels (OFML) は識別ラベルの特徴を学習するのに役立ちません。
我々は,One-specific-Feature-for-One-Label(OFOL)機構を導入し,新しいアンタングル付きラベル特徴学習フレームワークを提案する。
8つのデータセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 39.97251974500034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although various methods have been proposed for multi-label classification,
most approaches still follow the feature learning mechanism of the single-label
(multi-class) classification, namely, learning a shared image feature to
classify multiple labels. However, we find this
One-shared-Feature-for-Multiple-Labels (OFML) mechanism is not conducive to
learning discriminative label features and makes the model non-robustness. For
the first time, we mathematically prove that the inferiority of the OFML
mechanism is that the optimal learned image feature cannot maintain high
similarities with multiple classifiers simultaneously in the context of
minimizing cross-entropy loss. To address the limitations of the OFML
mechanism, we introduce the One-specific-Feature-for-One-Label (OFOL) mechanism
and propose a novel disentangled label feature learning (DLFL) framework to
learn a disentangled representation for each label. The specificity of the
framework lies in a feature disentangle module, which contains learnable
semantic queries and a Semantic Spatial Cross-Attention (SSCA) module.
Specifically, learnable semantic queries maintain semantic consistency between
different images of the same label. The SSCA module localizes the label-related
spatial regions and aggregates located region features into the corresponding
label feature to achieve feature disentanglement. We achieve state-of-the-art
performance on eight datasets of three tasks, \ie, multi-label classification,
pedestrian attribute recognition, and continual multi-label learning.
- Abstract(参考訳): マルチラベル分類には様々な方法が提案されているが、ほとんどのアプローチは単一ラベル(複数クラス)分類の特徴学習機構、すなわち複数のラベルを分類するための共有画像特徴の学習に引き続き従っている。
しかし、このOne-Shared-Feature-for-Multiple-Labels (OFML) メカニズムは識別ラベルの特徴を学習するのに役立ちません。
まず,ofml機構の劣りは,クロスエントロピー損失の最小化という文脈において,最適な学習画像特徴が複数の分類器と高い類似性を維持できないことを数学的に証明した。
ofml機構の限界に対処するために,one-specific-feature-for-one-label (ofol) 機構を導入し,各ラベルの異種表現を学ぶための新しい異種ラベル特徴学習(dlfl)フレームワークを提案する。
フレームワークの特異性は、学習可能なセマンティッククエリとSSCA(Semantic Spatial Cross-Attention)モジュールを含む機能不整合モジュールにある。
具体的には、学習可能なセマンティッククエリは、同一ラベルの異なる画像間のセマンティック一貫性を維持する。
SSCAモジュールは、ラベル関連空間領域をローカライズし、位置領域の特徴を対応するラベル特徴に集約して特徴不絡を実現する。
我々は,3つのタスクからなる8つのデータセット,iie,複数ラベル分類,歩行者属性認識,連続多ラベル学習の最先端性能を達成した。
関連論文リスト
- TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - CARAT: Contrastive Feature Reconstruction and Aggregation for
Multi-Modal Multi-Label Emotion Recognition [18.75994345925282]
マルチモーダルマルチラベル感情認識(MMER)は、複数のモーダルから関連する感情を識別することを目的としている。
MMERの課題は、異種データから複数のラベルの識別機能を効果的に取得する方法である。
本稿では,MMERタスクのためのContrAstive Feature Restruction and AggregaTion(CARAT)を提案する。
論文 参考訳(メタデータ) (2023-12-15T20:58:05Z) - Semantic-Aware Dual Contrastive Learning for Multi-label Image
Classification [8.387933969327852]
本稿では,サンプル対サンプルのコントラスト学習を取り入れた,セマンティック・アウェアな2つのコントラスト学習フレームワークを提案する。
具体的には、セマンティック・アウェアな表現学習を活用して、カテゴリに関連する局所的識別特徴を抽出する。
提案手法は, 最先端の手法よりも有効であり, 性能も優れている。
論文 参考訳(メタデータ) (2023-07-19T01:57:31Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。