論文の概要: Combining Metric Learning and Attention Heads For Accurate and Efficient
Multilabel Image Classification
- arxiv url: http://arxiv.org/abs/2209.06585v1
- Date: Wed, 14 Sep 2022 12:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:30:54.368659
- Title: Combining Metric Learning and Attention Heads For Accurate and Efficient
Multilabel Image Classification
- Title(参考訳): 高精度・効率的なマルチラベル画像分類のためのメトリクス学習と注意ヘッドの組み合わせ
- Authors: Kirill Prokofiev and Vladislav Sovrasov
- Abstract要約: マルチラベル分類における2つの一般的なアプローチについて再検討する。
トランスフォーマーベースヘッドはグラフベースのブランチよりも優れた結果が得られると考えられるが、適切なトレーニング戦略により、グラフベースの手法はわずかに精度の低下を示すことができると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image classification allows predicting a set of labels from a
given image. Unlike multiclass classification, where only one label per image
is assigned, such setup is applicable for a broader range of applications. In
this work we revisit two popular approaches to multilabel classification:
transformer-based heads and labels relations information graph processing
branches. Although transformer-based heads are considered to achieve better
results than graph-based branches, we argue that with the proper training
strategy graph-based methods can demonstrate just a small accuracy drop, while
spending less computational resources on inference. In our training strategy,
instead of Asymmetric Loss (ASL), which is the de-facto standard for multilabel
classification, we introduce its modification acting in the angle space. It
implicitly learns a proxy feature vector on the unit hypersphere for each
class, providing a better discrimination ability, than binary cross entropy
loss does on unnormalized features. With the proposed loss and training
strategy, we obtain SOTA results among single modality methods on widespread
multilabel classification benchmarks such as MS-COCO, PASCAL-VOC, NUS-Wide and
Visual Genome 500. Source code of our method is available as a part of the
OpenVINO Training Extensions
https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel
- Abstract(参考訳): マルチラベル画像分類では、与えられた画像からラベルのセットを予測することができる。
画像ごとに1つのラベルが割り当てられるマルチクラス分類とは異なり、そのような設定は幅広いアプリケーションに適用できる。
本稿では,マルチラベル分類における2つの一般的なアプローチについて再検討する。
トランスフォーマティブベースのヘッドはグラフベースのブランチよりも優れた結果が得られると考えられているが、適切なトレーニング戦略により、グラフベースのメソッドは、計算リソースを推論に費やすことなく、ほんのわずかな精度低下を示すことができる。
トレーニング戦略では、マルチラベル分類のデファクト標準である非対称損失(ASL)の代わりに、アングル空間に作用する修正を導入する。
クラスごとにユニットハイパースフィア上のプロキシ特徴ベクトルを暗黙的に学習し、非正規化特徴に対するバイナリクロスエントロピー損失よりも優れた識別能力を提供する。
提案手法により,MS-COCO,PASCAL-VOC,NUS-Wide,Visual Genome 500などの多言語分類ベンチマークにおいて,単一モダリティ手法のSOTA結果を得た。
ソースコードはOpenVINO Training Extensions https://github.com/openvinotoolkit/deep-object-reid/tree/multilabelの一部として公開されている。
関連論文リスト
- Multi-label Cluster Discrimination for Visual Representation Learning [27.552024985952166]
本稿では,表現学習を強化するため,MLCDと呼ばれる新しいマルチラベルクラスタ識別手法を提案する。
本手法は,線形プローブ,ゼロショット分類,画像テキスト検索など,複数の下流タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-24T14:54:16Z) - UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification [42.36546066941635]
Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
この研究は、デュアルエンコーダと分類器を同時に訓練する新しいエンドツーエンドのトレーニング可能なフレームワークであるUniDECを提案する。
論文 参考訳(メタデータ) (2024-05-04T17:27:51Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Graph Attention Transformer Network for Multi-Label Image Classification [50.0297353509294]
複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための一般的なフレームワークを提案する。
提案手法は3つのデータセット上で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-03-08T12:39:05Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - All Labels Are Not Created Equal: Enhancing Semi-supervision via Label
Grouping and Co-training [32.45488147013166]
Pseudo-labelingは、半教師付き学習(SSL)の鍵となるコンポーネントである
本論文では,ラベルセマンティクスとコトレーニングを活用した問題解決手法であるSemCoを提案する。
提案手法は,1000個のラベル付きサンプルを持つミニイメージネットデータセットにおける5.6%の精度向上を含む,様々なsslタスクにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T07:33:16Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z) - Multi-label Zero-shot Classification by Learning to Transfer from
External Knowledge [36.04579549557464]
マルチラベルゼロショット分類は、入力画像に対する複数の未知のクラスラベルを予測することを目的としている。
本稿では,外部知識の伝達を学習することで,新たなゼロショット分類フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-30T17:26:46Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。