Fugu-MT 論文翻訳(概要): Extreme Zero-Shot Learning for Extreme Text Classification

論文の概要: Extreme Zero-Shot Learning for Extreme Text Classification

arxiv url: http://arxiv.org/abs/2112.08652v1
Date: Thu, 16 Dec 2021 06:06:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-18 03:05:43.105173
Title: Extreme Zero-Shot Learning for Extreme Text Classification
Title（参考訳）: 極端テキスト分類のための極端ゼロショット学習
Authors: Yuanhao Xiong, Wei-Cheng Chang, Cho-Jui Hsieh, Hsiang-Fu Yu, Inderjit Dhillon
Abstract要約: 極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
参考スコア（独自算出の注目度）: 80.95271050744624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The eXtreme Multi-label text Classification (XMC) problem concerns finding most relevant labels for an input text instance from a large label set. However, the XMC setup faces two challenges: (1) it is not generalizable to predict unseen labels in dynamic environments, and (2) it requires a large amount of supervised (instance, label) pairs, which can be difficult to obtain for emerging domains. Recently, the generalized zero-shot XMC (GZ-XMC) setup has been studied and ZestXML is proposed accordingly to handle the unseen labels, which still requires a large number of annotated (instance, label) pairs. In this paper, we consider a more practical scenario called Extreme Zero-Shot XMC (EZ-XMC), in which no supervision is needed and merely raw text of instances and labels are accessible. Few-Shot XMC (FS-XMC), an extension to EZ-XMC with limited supervision is also investigated. To learn the semantic embeddings of instances and labels with raw text, we propose to pre-train Transformer-based encoders with self-supervised contrastive losses. Specifically, we develop a pre-training method MACLR, which thoroughly leverages the raw text with techniques including Multi-scale Adaptive Clustering, Label Regularization, and self-training with pseudo positive pairs. Experimental results on four public EZ-XMC datasets demonstrate that MACLR achieves superior performance compared to all other leading baseline methods, in particular with approximately 5-10% improvement in precision and recall on average. Moreover, we also show that our pre-trained encoder can be further improved on FS-XMC when there are a limited number of ground-truth positive pairs in training. By fine-tuning the encoder on such a few-shot subset, MACLR still outperforms other extreme classifiers significantly.
Abstract（参考訳）: xmc (extreme multi-label text classification) 問題は、大きなラベルセットから入力テキストインスタンスの最も関連するラベルを見つけることである。しかしながら、XMC のセットアップは、(1) 動的環境において見えないラベルを予測できないこと、(2) 多数の教師付き(インスタンス、ラベル)ペアを必要とすること、そして、新興ドメインでは取得が難しいこと、の2つの課題に直面している。近年、一般化されたゼロショットXMC(GZ-XMC)のセットアップが検討され、未確認ラベルを扱うためにZestXMLが提案されている。本稿では,EZ-XMC(Extreme Zero-Shot XMC)と呼ばれるより実践的なシナリオについて考察する。 EZ-XMCの拡張であるFew-Shot XMC(FS-XMC)についても検討した。原文によるインスタンスとラベルの意味的埋め込みを学ぶために,自己教師付きコントラスト損失を伴うトランスフォーマベースのエンコーダの事前学習を提案する。具体的には,Multi-scale Adaptive Clustering, Label Regularization, 擬陽性ペアによる自己学習など, 生テキストを徹底的に活用する事前学習手法MACLRを開発した。 4つの公開EZ-XMCデータセットによる実験結果から,MACLRは他の主要なベースライン手法と比較して優れた性能を示し,特に平均5～10%の精度向上とリコールを実現している。また, FS-XMCでは, 事前学習したエンコーダは, トレーニング中に接点-接点-接点の数が限られている場合にさらに改善できることを示す。このような少数ショットのサブセットでエンコーダを微調整することで、maclrは他の極端な分類器を大きく上回る。

関連論文リスト

Retrieval-augmented Encoders for Extreme Multi-label Text Classification [31.300502762878914]
エクストリームマルチラベル分類(XMC)は、与えられたテキスト入力に対して非常に大きなラベルコレクションから関連するラベルを見つけようとする。 1-versus-all (OVA) 法では、各ラベルに学習可能なラベル埋め込みを使用し、記憶に優れる。デュアルエンコーダ(DE)モデルは、入力とラベルのテキストを共有埋め込み空間にマッピングし、より一般化する。
論文参考訳（メタデータ） (2025-02-15T00:30:28Z)
Prototypical Extreme Multi-label Classification with a Dynamic Margin Loss [6.244642999033755]
XMC (Extreme Multi-label Classification) メソッドは、非常に大きなラベル空間において、与えられたクエリの関連ラベルを予測する。 XMCにおける最近の研究は、テキスト記述を最も近いラベルの復元に適した埋め込み空間に投影するディープエンコーダを用いてこの問題に対処している。本稿では,新しいプロトタイプ・コントラスト学習技術を用いて,ブルートフォース手法を超越した効率と性能を再現するXMC手法PRIMEを提案する。
論文参考訳（メタデータ） (2024-10-27T10:24:23Z)
Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models [3.908992369351976]
Extreme Zero-shot XMC (EZ-XMC) はXMCの特別な設定であり、監督は提供されない。従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。大規模言語モデル(LLM)からのフィードバックにより,小さなバイエンコーダモデルをトレーニングするためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-13T16:26:37Z)
Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文参考訳（メタデータ） (2024-05-03T21:18:43Z)
PINA: Leveraging Side Information in eXtreme Multi-label Classification via Predicted Instance Neighborhood Aggregation [105.52660004082766]
eXtreme Multi-label Classification(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけることを目指している。一般XMC問題に対するデータ強化手法であるPINA(Predicted Instance Neighborhood Aggregation)を提案する。ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。
論文参考訳（メタデータ） (2023-05-21T05:00:40Z)
Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification [54.26205045417422]
エクストリームマルチラベルテキスト分類(XMC)は、与えられたテキスト入力に対して、非常に大きなラベルコレクションから関連するラベルを見つけようとする。 X-TransformerやLightXMLのようなトランスフォーマーベースのXMCメソッドは、他のXMCメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2021-10-01T23:43:29Z)
Label Disentanglement in Partition-based Extreme Multilabel Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文参考訳（メタデータ） (2021-06-24T03:24:18Z)
An Empirical Study on Large-Scale Multi-Label Text Classification Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。 Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。 BERTとLWANを組み合わせた最先端手法を提案する。
論文参考訳（メタデータ） (2020-10-04T18:55:47Z)
Extreme Multi-label Classification from Aggregated Labels [27.330826185375415]
XMC(Extreme Multi-label classification)は、非常に大きなラベルのラベルから入力の関連ラベルを見つける問題である。我々は,グループラベルから個々のサンプルラベルをインプットする,新しいスケーラブルなアルゴリズムを開発した。これは既存のXMC法と組み合わせて集計ラベル問題を解くことができる。
論文参考訳（メタデータ） (2020-04-01T02:13:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。