論文の概要: Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features
- arxiv url: http://arxiv.org/abs/2208.09562v2
- Date: Sat, 7 Oct 2023 22:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:31:59.012597
- Title: Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features
- Title(参考訳): デュアルモーダルデコーダを用いた視覚的特徴量の自由語彙多重ラベル分類
- Authors: Shichao Xu, Yikang Li, Jenhao Hsiao, Chiuman Ho, Zhu Qi
- Abstract要約: 本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 14.334304670606633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In computer vision, multi-label recognition are important tasks with many
real-world applications, but classifying previously unseen labels remains a
significant challenge. In this paper, we propose a novel algorithm, Aligned
Dual moDality ClaSsifier (ADDS), which includes a Dual-Modal decoder
(DM-decoder) with alignment between visual and textual features, for
open-vocabulary multi-label classification tasks. Then we design a simple and
yet effective method called Pyramid-Forwarding to enhance the performance for
inputs with high resolutions. Moreover, the Selective Language Supervision is
applied to further enhance the model performance. Extensive experiments
conducted on several standard benchmarks, NUS-WIDE, ImageNet-1k, ImageNet-21k,
and MS-COCO, demonstrate that our approach significantly outperforms previous
methods and provides state-of-the-art performance for open-vocabulary
multi-label classification, conventional multi-label classification and an
extreme case called single-to-multi label classification where models trained
on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on multi-label
ones (MS-COCO and NUS-WIDE).
- Abstract(参考訳): コンピュータビジョンでは、マルチラベル認識は多くの現実世界のアプリケーションにおいて重要なタスクである。
本稿では,オープンボカブラリーなマルチラベル分類タスクのために,視覚特徴量とテキスト特徴量とをアライメントするデュアルモーダルデコーダ(dm-デコーダ)を含む新しいアルゴリズムであるアラインドデュアルモダリティ分類器(adds)を提案する。
そして,高分解能入力の性能を向上させるために,ピラミッドフォワードと呼ばれる単純かつ効果的な手法を設計した。
さらに、Selective Language Supervisionを適用して、モデルの性能をさらに向上させる。
Extensive experiments conducted on several standard benchmarks, NUS-WIDE, ImageNet-1k, ImageNet-21k, and MS-COCO, demonstrate that our approach significantly outperforms previous methods and provides state-of-the-art performance for open-vocabulary multi-label classification, conventional multi-label classification and an extreme case called single-to-multi label classification where models trained on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on multi-label ones (MS-COCO and NUS-WIDE).
関連論文リスト
- Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。
カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。
提案手法は最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-26T05:29:24Z) - UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification [42.36546066941635]
Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
この研究は、デュアルエンコーダと分類器を同時に訓練する新しいエンドツーエンドのトレーニング可能なフレームワークであるUniDECを提案する。
論文 参考訳(メタデータ) (2024-05-04T17:27:51Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - DICNet: Deep Instance-Level Contrastive Network for Double Incomplete
Multi-View Multi-Label Classification [20.892833511657166]
実世界におけるマルチビューマルチラベルデータは、データ収集や手動アノテーションの不確実性のため、一般的に不完全である。
本稿では,DICNetという深層インスタンスレベルのコントラストネットワークを提案し,二重不完全なマルチラベル分類問題に対処する。
我々のDICNetは、マルチビュー多ラベルデータの一貫した識別的表現を捉え、欠落したビューと欠落したラベルの負の影響を避けることに長けている。
論文 参考訳(メタデータ) (2023-03-15T04:24:01Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。