論文の概要: A Dual Modality Approach For (Zero-Shot) Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2208.09562v1
- Date: Fri, 19 Aug 2022 22:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:12:34.864647
- Title: A Dual Modality Approach For (Zero-Shot) Multi-Label Classification
- Title(参考訳): ゼロショット)マルチラベル分類のためのデュアルモータリティ手法
- Authors: Shichao Xu, Yikang Li, Jenhao Hsiao, Chiuman Ho, Zhu Qi
- Abstract要約: 本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
標準マルチラベルベンチマークデータセットであるMS-COCOとNUS-WIDEで行った大規模な実験は、我々のアプローチが従来の手法よりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 10.178399334477488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In computer vision, multi-label classification, including zero-shot
multi-label classification are important tasks with many real-world
applications. In this paper, we propose a novel algorithm, Aligned Dual
moDality ClaSsifier (ADDS), which includes a Dual-Modal decoder (DM-decoder)
with alignment between visual and textual features, for multi-label
classification tasks. Moreover, we design a simple and yet effective method
called Pyramid-Forwarding to enhance the performance for inputs with high
resolutions. Extensive experiments conducted on standard multi-label benchmark
datasets, MS-COCO and NUS-WIDE, demonstrate that our approach significantly
outperforms previous methods and provides state-of-the-art performance for
conventional multi-label classification, zero-shot multi-label classification,
and an extreme case called single-to-multi label classification where models
trained on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on
multi-label ones (MS-COCO and NUS-WIDE). We also analyze how visual-textual
alignment contributes to the proposed approach, validate the significance of
the DM-decoder, and demonstrate the effectiveness of Pyramid-Forwarding on
vision transformer.
- Abstract(参考訳): コンピュータビジョンにおいて、ゼロショットマルチラベル分類を含むマルチラベル分類は多くの実世界のアプリケーションにおいて重要なタスクである。
本稿では,マルチラベル分類タスクのために,視覚特徴量とテキスト特徴量とをアライメントするデュアルモーダルデコーダ(dm-デコーダ)を含む新しいアルゴリズムであるアラインドデュアルモダリティ分類器(adds)を提案する。
さらに,高分解能入力の性能を向上させるために,ピラミッドフォワードと呼ばれる単純かつ効果的な手法を考案した。
標準マルチラベルベンチマークデータセットであるMS-COCOとNUS-WIDEで実施された大規模な実験により、従来のマルチラベル分類やゼロショットマルチラベル分類、シングルラベルデータセットでトレーニングされたモデル(画像Net-1k, ImageNet-21k)をマルチラベルモデル(MS-COCOとNUS-WIDE)でテストする1対複数ラベル分類という極端なケースに対して、従来の手法よりも大幅に優れ、最先端のパフォーマンスを提供することが示された。
また,提案手法が視覚テキストアライメントにどのように寄与するかを分析し,DMデコーダの意義を検証し,視覚変換器におけるピラミッドフォワードの有効性を実証する。
関連論文リスト
- Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。
カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。
提案手法は最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-26T05:29:24Z) - UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification [42.36546066941635]
Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
この研究は、デュアルエンコーダと分類器を同時に訓練する新しいエンドツーエンドのトレーニング可能なフレームワークであるUniDECを提案する。
論文 参考訳(メタデータ) (2024-05-04T17:27:51Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - DICNet: Deep Instance-Level Contrastive Network for Double Incomplete
Multi-View Multi-Label Classification [20.892833511657166]
実世界におけるマルチビューマルチラベルデータは、データ収集や手動アノテーションの不確実性のため、一般的に不完全である。
本稿では,DICNetという深層インスタンスレベルのコントラストネットワークを提案し,二重不完全なマルチラベル分類問題に対処する。
我々のDICNetは、マルチビュー多ラベルデータの一貫した識別的表現を捉え、欠落したビューと欠落したラベルの負の影響を避けることに長けている。
論文 参考訳(メタデータ) (2023-03-15T04:24:01Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。