論文の概要: UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2405.03714v2
- Date: Mon, 03 Mar 2025 19:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:11:18.200848
- Title: UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification
- Title(参考訳): UniDEC : 極多ラベル分類のための統一デュアルエンコーダと分類器訓練
- Authors: Siddhant Kharbanda, Devaansh Gupta, Gururaj K, Pankaj Malhotra, Amit Singh, Cho-Jui Hsieh, Rohit Babbar,
- Abstract要約: Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
損失に依存しないエンドツーエンドのトレーニング可能なフレームワークであるUniDECを開発した。
UniDECは、数百万のラベルを持つデータセットで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 42.59511319244973
- License:
- Abstract: Extreme Multi-label Classification (XMC) involves predicting a subset of relevant labels from an extremely large label space, given an input query and labels with textual features. Models developed for this problem have conventionally made use of dual encoder (DE) to embed the queries and label texts and one-vs-all (OvA) classifiers to rerank the shortlisted labels by the DE. While such methods have shown empirical success, a major drawback is their computational cost, often requiring upto 16 GPUs to train on the largest public dataset. Such a high cost is a consequence of calculating the loss over the entire label space. While shortlisting strategies have been proposed for classifiers, we aim to study such methods for the DE framework. In this work, we develop UniDEC, a loss-independent, end-to-end trainable framework which trains the DE and classifier together in a unified manner with a multi-class loss, while reducing the computational cost by 4-16x. This is done via the proposed pick-some-label (PSL) reduction, which aims to compute the loss on only a subset of positive and negative labels. These labels are carefully chosen in-batch so as to maximise their supervisory signals. Not only does the proposed framework achieve state-of-the-art results on datasets with labels in the order of millions, it is also computationally and resource efficient in achieving this performance on a single GPU. Code is made available at https://github.com/the-catalyst/UniDEC.
- Abstract(参考訳): Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
この問題のために開発されたモデルは、従来、クエリとラベルテキストを埋め込むためにデュアルエンコーダ(DE)と、1-vs-all(OvA)分類器を使用して、DEによってショートリストラベルをリランクしていた。
このような手法は実証的な成功を示しているが、大きな欠点は計算コストであり、最大16GPUで最大の公開データセットをトレーニングする必要があることだ。
このような高いコストは、ラベル空間全体の損失を計算する結果である。
分類器のショートリスト化戦略が提案されているが、我々はDEフレームワークのこのような手法について研究することを目指している。
本研究は,DECと分類器を統一的に訓練し,計算コストを4~16倍に削減する,損失非依存のエンドツーエンドトレーニング可能なフレームワークであるUniDECを開発する。
これは、正のラベルと負のラベルのサブセットでのみ損失を計算することを目的として提案されたPSL(P pick-some-label)還元によって行われる。
これらのラベルは、監督信号の最大化のために、慎重にバッチ内で選択される。
提案するフレームワークは,ラベル付きデータセットに対して,数百万のオーダで最先端の結果を達成するだけでなく,このパフォーマンスを単一のGPU上で達成する上で,計算的かつリソース効率も向上する。
コードはhttps://github.com/the-catalyst/UniDECで公開されている。
関連論文リスト
- Prototypical Extreme Multi-label Classification with a Dynamic Margin Loss [6.244642999033755]
XMC (Extreme Multi-label Classification) メソッドは、非常に大きなラベル空間において、与えられたクエリの関連ラベルを予測する。
XMCにおける最近の研究は、テキスト記述を最も近いラベルの復元に適した埋め込み空間に投影するディープエンコーダを用いてこの問題に対処している。
本稿では,新しいプロトタイプ・コントラスト学習技術を用いて,ブルートフォース手法を超越した効率と性能を再現するXMC手法PRIMEを提案する。
論文 参考訳(メタデータ) (2024-10-27T10:24:23Z) - LC-Protonets: Multi-Label Few-Shot Learning for World Music Audio Tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - An Effective Approach for Multi-label Classification with Missing Labels [8.470008570115146]
分類ネットワークにさらなる複雑さをもたらすことなく、アノテーションのコストを削減するための擬似ラベルベースのアプローチを提案する。
新たな損失関数を設計することにより、各インスタンスが少なくとも1つの正のラベルを含む必要があるという要求を緩和することができる。
提案手法は,正のラベルと負のラベルの不均衡を扱える一方で,既存の欠落ラベル学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T23:13:57Z) - Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T22:45:07Z) - One Positive Label is Sufficient: Single-Positive Multi-Label Learning
with Label Enhancement [71.9401831465908]
本研究では,SPMLL (Single- positive multi-label learning) について検討した。
ラベルエンハンスメントを用いた単陽性MultIラベル学習という新しい手法を提案する。
ベンチマークデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-01T14:26:30Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。