論文の概要: Learning label-label correlations in Extreme Multi-label Classification via Label Features
- arxiv url: http://arxiv.org/abs/2405.04545v1
- Date: Fri, 3 May 2024 21:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 18:41:08.895905
- Title: Learning label-label correlations in Extreme Multi-label Classification via Label Features
- Title(参考訳): ラベル特徴を用いた極端多ラベル分類におけるラベル-ラベル相関の学習
- Authors: Siddhant Kharbanda, Devaansh Gupta, Erik Schultheis, Atmadeep Banerjee, Cho-Jui Hsieh, Rohit Babbar,
- Abstract要約: Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
- 参考スコア(独自算出の注目度): 44.00852282861121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme Multi-label Text Classification (XMC) involves learning a classifier that can assign an input with a subset of most relevant labels from millions of label choices. Recent works in this domain have increasingly focused on a symmetric problem setting where both input instances and label features are short-text in nature. Short-text XMC with label features has found numerous applications in areas such as query-to-ad-phrase matching in search ads, title-based product recommendation, prediction of related searches. In this paper, we propose Gandalf, a novel approach which makes use of a label co-occurrence graph to leverage label features as additional data points to supplement the training distribution. By exploiting the characteristics of the short-text XMC problem, it leverages the label features to construct valid training instances, and uses the label graph for generating the corresponding soft-label targets, hence effectively capturing the label-label correlations. Surprisingly, models trained on these new training instances, although being less than half of the original dataset, can outperform models trained on the original dataset, particularly on the PSP@k metric for tail labels. With this insight, we aim to train existing XMC algorithms on both, the original and new training instances, leading to an average 5% relative improvements for 6 state-of-the-art algorithms across 4 benchmark datasets consisting of up to 1.3M labels. Gandalf can be applied in a plug-and-play manner to various methods and thus forwards the state-of-the-art in the domain, without incurring any additional computational overheads.
- Abstract(参考訳): Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
この領域における最近の研究は、入力インスタンスとラベル機能の両方が本質的に短文である対称的な問題設定に焦点を当てている。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
短文XMC問題の特徴を利用して、ラベル特徴を利用して有効なトレーニングインスタンスを構築し、ラベルグラフを用いて対応するソフトラベルターゲットを生成することにより、ラベルラベル相関を効果的に取得する。
驚くべきことに、これらの新しいトレーニングインスタンスでトレーニングされたモデルは、オリジナルのデータセットの半分以下だが、オリジナルのデータセット、特にテールラベルのSP@kメトリックでトレーニングされたモデルよりも優れている。
この洞察により、私たちは、オリジナルのトレーニングインスタンスと新しいトレーニングインスタンスの両方で既存のXMCアルゴリズムをトレーニングすることを目指しています。
ガンダルフは様々な手法にプラグ・アンド・プレイ方式で適用することができ、計算上のオーバーヘッドを発生させることなく、ドメインの最先端を前進させることができる。
関連論文リスト
- Determined Multi-Label Learning via Similarity-Based Prompt [12.428779617221366]
マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。
この問題を軽減するために,textitDetermined Multi-Label Learning (DMLL) と呼ばれる新しいラベル設定を提案する。
論文 参考訳(メタデータ) (2024-03-25T07:08:01Z) - Open Vocabulary Extreme Classification Using Generative Models [24.17018785195843]
極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。
本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。
提案手法の有効性を実証し,GROOVが与えられた語彙の外で有意なラベルを予測できるようなXMCデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-05-12T00:33:49Z) - ECLARE: Extreme Classification with Label Graph Correlations [13.429436351837653]
本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。
ECLAREは、Bing検索エンジンからソースされた関連製品レコメンデーションタスク用のプロプライエタリデータセットと同様に、公開可能なベンチマークデータセットの両方で2~14%精度の予測を提供する。
論文 参考訳(メタデータ) (2021-07-31T15:13:13Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification [27.80266694835677]
Extreme Multi-label text Classification (XMC) は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
エンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案する。
実験では、LightXMLは5つの極端なマルチラベルデータセットで最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2021-01-09T07:04:18Z) - Label Confusion Learning to Enhance Text Classification Models [3.0251266104313643]
ラベル混乱モデル(lcm)はラベル間の意味的重複を捉えるためにラベル混乱を学習する。
lcmは、元のホットラベルベクトルを置き換えるより優れたラベル分布を生成することができる。
5つのテキスト分類ベンチマークデータセットの実験により、広く使われているディープラーニング分類モデルに対するLCMの有効性が明らかにされた。
論文 参考訳(メタデータ) (2020-12-09T11:34:35Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。