論文の概要: General Multi-label Image Classification with Transformers
- arxiv url: http://arxiv.org/abs/2011.14027v1
- Date: Fri, 27 Nov 2020 23:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 01:29:39.621467
- Title: General Multi-label Image Classification with Transformers
- Title(参考訳): 変圧器を用いた一般マルチラベル画像分類
- Authors: Jack Lanchantin, Tianlu Wang, Vicente Ordonez, Yanjun Qi
- Abstract要約: 視覚的特徴やラベル間の複雑な依存関係を利用するための分類変換器(C-Tran)を提案する。
本手法の重要な要素は,3次符号化方式を用いてラベルの状態を表すラベルマスク訓練目標である。
我々のモデルは、COCOやVisual Genomeのような挑戦的なデータセットに対する最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 30.58248625606648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label image classification is the task of predicting a set of labels
corresponding to objects, attributes or other entities present in an image. In
this work we propose the Classification Transformer (C-Tran), a general
framework for multi-label image classification that leverages Transformers to
exploit the complex dependencies among visual features and labels. Our approach
consists of a Transformer encoder trained to predict a set of target labels
given an input set of masked labels, and visual features from a convolutional
neural network. A key ingredient of our method is a label mask training
objective that uses a ternary encoding scheme to represent the state of the
labels as positive, negative, or unknown during training. Our model shows
state-of-the-art performance on challenging datasets such as COCO and Visual
Genome. Moreover, because our model explicitly represents the uncertainty of
labels during training, it is more general by allowing us to produce improved
results for images with partial or extra label annotations during inference. We
demonstrate this additional capability in the COCO, Visual Genome, News500, and
CUB image datasets.
- Abstract(参考訳): マルチラベル画像分類は、画像に存在するオブジェクト、属性、その他のエンティティに対応するラベルの集合を予測するタスクである。
本研究では,多ラベル画像分類のための一般的なフレームワークである分類変換器(C-Tran)を提案する。
我々のアプローチは、マスク付きラベルの入力セットと畳み込みニューラルネットワークの視覚的特徴を与えられたターゲットラベルのセットを予測するために訓練されたTransformerエンコーダで構成されている。
本手法の重要な要素はラベルマスクのトレーニング目的であり、トレーニング中にラベルの状態を正、負、未知と表現するために三元符号化方式を用いる。
我々のモデルは、COCOやVisual Genomeのような挑戦的なデータセットに対する最先端のパフォーマンスを示す。
さらに,トレーニング中のラベルの不確かさを明示的に表現するモデルであるため,推論中に部分的あるいは余分なラベルアノテーションを用いた画像に対して,よりよい結果が得られることがより一般的である。
この追加機能は、COCO、Visual Genome、News500、CUBイメージデータセットで実証する。
関連論文リスト
- Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - Semantic-Aware Graph Matching Mechanism for Multi-Label Image
Recognition [21.36538164675385]
マルチラベル画像認識は、画像に存在するラベルの集合を予測することを目的としている。
本稿では、各画像をインスタンスの袋として扱い、複数ラベル画像認識のタスクをインスタンス-ラベルマッチング選択問題として定式化する。
マルチラベル画像認識(ML-SGM)のための革新的なセマンティック対応グラフマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-21T23:48:01Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Graph Attention Transformer Network for Multi-Label Image Classification [50.0297353509294]
複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための一般的なフレームワークを提案する。
提案手法は3つのデータセット上で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-03-08T12:39:05Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - A Weakly Supervised Convolutional Network for Change Segmentation and
Classification [91.3755431537592]
W-CDNetは、画像レベルのセマンティックラベルでトレーニングできる、弱い教師付き変更検出ネットワークである。
W-CDNetは、2つの異なるタイプのデータセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-11-06T20:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。