論文の概要: LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification
- arxiv url: http://arxiv.org/abs/2101.03305v1
- Date: Sat, 9 Jan 2021 07:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 07:27:18.999490
- Title: LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification
- Title(参考訳): LightXML: ハイパフォーマンスなマルチラベルテキスト分類のための動的負サンプリング付きトランス
- Authors: Ting Jiang, Deqing Wang, Leilei Sun, Huayi Yang, Zhengyang Zhao,
Fuzhen Zhuang
- Abstract要約: Extreme Multi-label text Classification (XMC) は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
エンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案する。
実験では、LightXMLは5つの極端なマルチラベルデータセットで最先端のメソッドより優れています。
- 参考スコア(独自算出の注目度): 27.80266694835677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme Multi-label text Classification (XMC) is a task of finding the most
relevant labels from a large label set. Nowadays deep learning-based methods
have shown significant success in XMC. However, the existing methods (e.g.,
AttentionXML and X-Transformer etc) still suffer from 1) combining several
models to train and predict for one dataset, and 2) sampling negative labels
statically during the process of training label ranking model, which reduces
both the efficiency and accuracy of the model. To address the above problems,
we proposed LightXML, which adopts end-to-end training and dynamic negative
labels sampling. In LightXML, we use generative cooperative networks to recall
and rank labels, in which label recalling part generates negative and positive
labels, and label ranking part distinguishes positive labels from these labels.
Through these networks, negative labels are sampled dynamically during label
ranking part training by feeding with the same text representation. Extensive
experiments show that LightXML outperforms state-of-the-art methods in five
extreme multi-label datasets with much smaller model size and lower
computational complexity. In particular, on the Amazon dataset with 670K
labels, LightXML can reduce the model size up to 72% compared to AttentionXML.
- Abstract(参考訳): Extreme Multi-label text Classification (XMC)は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
近年、深層学習に基づく手法はXMCにおいて大きな成功を収めている。
しかし、既存の方法(例えば attentionxml や x-transformer など)では、1つのデータセットのトレーニングと予測のために複数のモデルを組み合わせたり、ラベルのランク付けモデルのトレーニング中に負のラベルを静的にサンプリングしたりするなど、モデルの効率と精度を低下させる。
上記の問題に対処するため、私たちはエンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案しました。
lightxmlでは、ラベルリコール部が負のラベルと正のラベルを生成し、ラベルランキング部がこれらのラベルと正のラベルを区別する、ラベルのリコールとランク付けにジェネレーティブ協調ネットワークを使用する。
これらのネットワークを通じて、同じテキスト表現を供給してラベルランキングパートトレーニング中に、負のラベルを動的にサンプリングする。
広範な実験により、lightxmlは5つの極端なマルチラベルデータセットで最先端のメソッドよりもずっと小さいモデルサイズと計算の複雑さで優れています。
特に670Kラベルを持つAmazonデータセットでは、LightXMLはAttentionXMLと比較してモデルサイズを最大72%削減できる。
関連論文リスト
- Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification [13.799733640048672]
eXtreme Multi-label text Classification (XMC) は、大規模なラベルセットから関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
論文 参考訳(メタデータ) (2023-08-25T02:32:36Z) - Light-weight Deep Extreme Multilabel Classification [12.29534534973133]
Extreme Multi-label (XML) 分類は、多数のラベルを含む教師付きマルチラベル学習のタスクを指す。
我々は最近開発されたディープラーニングベースのXMLフレームワークをラベル埋め込みを用いて変更するLightDXMLと呼ばれる手法を開発した。
LightDXMLはまた、再ランカモジュールの要求を取り除き、時間とメモリの要求をさらに節約する。
論文 参考訳(メタデータ) (2023-04-20T09:06:10Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Large Loss Matters in Weakly Supervised Multi-Label Classification [50.262533546999045]
まず、観測されていないラベルを負のラベルとみなし、Wタスクをノイズの多いマルチラベル分類にキャストする。
ノイズラベルを記憶しないために,大規模な損失サンプルを拒絶または補正する新しいW法を提案する。
提案手法は, 弱教師付きマルチラベル分類において, 大きな損失を適切に処理することが重要であることを検証した。
論文 参考訳(メタデータ) (2022-06-08T08:30:24Z) - Acknowledging the Unknown for Multi-label Learning with Single Positive
Labels [65.5889334964149]
伝統的に、全ての無注釈ラベルは、単一正のマルチラベル学習(SPML)において負のラベルとして仮定される。
本研究では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。
非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。
論文 参考訳(メタデータ) (2022-03-30T11:43:59Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - GNN-XML: Graph Neural Networks for Extreme Multi-label Text
Classification [23.79498916023468]
extreme multi-label text classification (xmtc) は、非常に大きなラベルセットから最も関連するラベルのサブセットでテキストインスタンスをタグ付けすることを目的としている。
GNN-XMLはXMTC問題に適したスケーラブルなグラフニューラルネットワークフレームワークである。
論文 参考訳(メタデータ) (2020-12-10T18:18:34Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。