論文の概要: Query2Label: A Simple Transformer Way to Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2107.10834v1
- Date: Thu, 22 Jul 2021 17:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 12:52:04.699490
- Title: Query2Label: A Simple Transformer Way to Multi-Label Classification
- Title(参考訳): Query2Label: マルチラベル分類の簡単な変換方法
- Authors: Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu
- Abstract要約: 本稿では,多ラベル分類問題に対する単純かつ効果的なアプローチを提案する。
提案手法はTransformerデコーダを用いてクラスラベルの存在を問い合わせる。
以前の作業と比較すると、新しいフレームワークはシンプルで、標準的なトランスフォーマーとビジョンバックボーンを使用し、効果的である。
- 参考スコア(独自算出の注目度): 37.206922180245265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simple and effective approach to solving the
multi-label classification problem. The proposed approach leverages Transformer
decoders to query the existence of a class label. The use of Transformer is
rooted in the need of extracting local discriminative features adaptively for
different labels, which is a strongly desired property due to the existence of
multiple objects in one image. The built-in cross-attention module in the
Transformer decoder offers an effective way to use label embeddings as queries
to probe and pool class-related features from a feature map computed by a
vision backbone for subsequent binary classifications. Compared with prior
works, the new framework is simple, using standard Transformers and vision
backbones, and effective, consistently outperforming all previous works on five
multi-label classification data sets, including MS-COCO, PASCAL VOC, NUS-WIDE,
and Visual Genome. Particularly, we establish $91.3\%$ mAP on MS-COCO. We hope
its compact structure, simple implementation, and superior performance serve as
a strong baseline for multi-label classification tasks and future studies. The
code will be available soon at https://github.com/SlongLiu/query2labels.
- Abstract(参考訳): 本稿では,多ラベル分類問題に対する単純かつ効果的なアプローチを提案する。
提案手法はTransformerデコーダを用いてクラスラベルの存在を問い合わせる。
トランスの使用は、異なるラベルに対して適応的に局所的な識別特徴を抽出する必要性に根ざしており、これは1つの画像に複数のオブジェクトが存在するため、強く望まれる特性である。
Transformerデコーダのビルトインのクロスアテンションモジュールは、後続のバイナリ分類のために視覚バックボーンによって計算された特徴マップからクラス関連の機能を探索してプールするためのクエリとしてラベル埋め込みを使用する効果的な方法を提供する。
従来の作業と比較すると、新しいフレームワークはシンプルで、標準的なトランスフォーマーとビジョンバックボーンを使用し、MS-COCO、PASCAL VOC、NAS-WIDE、Visual Genomeを含む5つのマルチラベル分類データセットにおいて、従来よりも一貫してパフォーマンスが向上している。
特に,MS-COCO 上では 91.3 %$ mAP を確立する。
我々は,そのコンパクトな構造,シンプルな実装,優れた性能が,多ラベル分類タスクや今後の研究の強力なベースラインとなることを願っている。
コードは近くhttps://github.com/slongliu/query2labelsで入手できる。
関連論文リスト
- UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification [42.36546066941635]
Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
この研究は、デュアルエンコーダと分類器を同時に訓練する新しいエンドツーエンドのトレーニング可能なフレームワークであるUniDECを提案する。
論文 参考訳(メタデータ) (2024-05-04T17:27:51Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - Combining Metric Learning and Attention Heads For Accurate and Efficient
Multilabel Image Classification [0.0]
マルチラベル分類における2つの一般的なアプローチについて再検討する。
トランスフォーマーベースヘッドはグラフベースのブランチよりも優れた結果が得られると考えられるが、適切なトレーニング戦略により、グラフベースの手法はわずかに精度の低下を示すことができると論じる。
論文 参考訳(メタデータ) (2022-09-14T12:06:47Z) - Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T22:45:07Z) - Large Loss Matters in Weakly Supervised Multi-Label Classification [50.262533546999045]
まず、観測されていないラベルを負のラベルとみなし、Wタスクをノイズの多いマルチラベル分類にキャストする。
ノイズラベルを記憶しないために,大規模な損失サンプルを拒絶または補正する新しいW法を提案する。
提案手法は, 弱教師付きマルチラベル分類において, 大きな損失を適切に処理することが重要であることを検証した。
論文 参考訳(メタデータ) (2022-06-08T08:30:24Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - General Multi-label Image Classification with Transformers [30.58248625606648]
視覚的特徴やラベル間の複雑な依存関係を利用するための分類変換器(C-Tran)を提案する。
本手法の重要な要素は,3次符号化方式を用いてラベルの状態を表すラベルマスク訓練目標である。
我々のモデルは、COCOやVisual Genomeのような挑戦的なデータセットに対する最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-11-27T23:20:35Z) - LabelEnc: A New Intermediate Supervision Method for Object Detection [78.74368141062797]
本稿では,オブジェクト検出システムのトレーニングを促進するため,LabelEncという新たな中間監視手法を提案する。
鍵となるアイデアは、新しいラベル符号化機能を導入し、接地木ラベルを潜伏埋め込みにマッピングすることである。
実験の結果,COCOデータセット上での検出精度は,約2%向上した。
論文 参考訳(メタデータ) (2020-07-07T08:55:05Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。