論文の概要: DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short
Text Documents
- arxiv url: http://arxiv.org/abs/2111.06685v1
- Date: Fri, 12 Nov 2021 12:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 14:58:19.907828
- Title: DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short
Text Documents
- Title(参考訳): DeepXML: 短いテキスト文書に適用可能な、極度のマルチラベル学習フレームワーク
- Authors: Kunal Dahiya, Deepak Saini, Anshul Mittal, Ankush Shaw, Kushal Dave,
Akshay Soni, Himanshu Jain, Sumeet Agarwal, Manik Varma
- Abstract要約: 本稿では,DeepXMLフレームワークを開発し,深部マルチラベルタスクを4つのシンプルなサブタスクに分解し,それらを正確かつ効率的に訓練する。
DeepXMLはAstecアルゴリズムの精度を2~12%向上し、トレーニングが5~30倍高速になる可能性がある。
またAstecは、最大6200万のラベルを含むBingの短いテキストデータセットを効率的にトレーニングし、コモディティハードウェア上で毎日数十億のユーザとデータポイントを予測できる。
- 参考スコア(独自算出の注目度): 10.573976360424473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalability and accuracy are well recognized challenges in deep extreme
multi-label learning where the objective is to train architectures for
automatically annotating a data point with the most relevant subset of labels
from an extremely large label set. This paper develops the DeepXML framework
that addresses these challenges by decomposing the deep extreme multi-label
task into four simpler sub-tasks each of which can be trained accurately and
efficiently. Choosing different components for the four sub-tasks allows
DeepXML to generate a family of algorithms with varying trade-offs between
accuracy and scalability. In particular, DeepXML yields the Astec algorithm
that could be 2-12% more accurate and 5-30x faster to train than leading deep
extreme classifiers on publically available short text datasets. Astec could
also efficiently train on Bing short text datasets containing up to 62 million
labels while making predictions for billions of users and data points per day
on commodity hardware. This allowed Astec to be deployed on the Bing search
engine for a number of short text applications ranging from matching user
queries to advertiser bid phrases to showing personalized ads where it yielded
significant gains in click-through-rates, coverage, revenue and other online
metrics over state-of-the-art techniques currently in production. DeepXML's
code is available at https://github.com/Extreme-classification/deepxml
- Abstract(参考訳): スケーラビリティと正確性は、非常に大きなラベルセットから最も関連するラベルのサブセットにデータポイントをアノテートするアーキテクチャをトレーニングすることを目的としている、深い極端なマルチラベル学習において、よく認識されている課題である。
本稿では,これらの課題に対処するDeepXMLフレームワークを開発し,深部マルチラベルタスクを4つのシンプルなサブタスクに分解し,それらを正確かつ効率的に訓練する。
4つのサブタスクに対して異なるコンポーネントを選択することで、DeepXMLは精度とスケーラビリティのトレードオフの異なるアルゴリズム群を生成することができる。
特にDeepXMLは、公開可能な短いテキストデータセットの深い極端分類器よりも2~12%正確で、トレーニングが5~30倍高速なAstecアルゴリズムを生成する。
またAstecは、最大6200万のラベルを含むBingの短いテキストデータセットを効率的にトレーニングし、コモディティハードウェア上で毎日数十億のユーザとデータポイントを予測できる。
これにより、AstecはBing検索エンジンに、ユーザクエリのマッチングから広告主の入札フレーズ、クリックスルー率、カバレッジ、収益などのオンライン指標が現在生産中の最先端技術よりも大幅に向上したパーソナライズされた広告の表示まで、数多くの短いテキストアプリケーションにデプロイできるようになった。
DeepXMLのコードはhttps://github.com/Extreme-classification/deepxmlで入手できる。
関連論文リスト
- Hierarchical Text Classification (HTC) vs. eXtreme Multilabel Classification (XML): Two Sides of the Same Medal [4.750005231187266]
階層的テキスト分類(HTC)は、セマンティックなラベル階層を伴う数百のエントリからなる小さなラベルプールを持つデータセットに焦点を当てている。
eXtreme Multi-Label Text Classification (XML)は、最大数百万のエントリを持つ非常に大きなラベルプールを、ラベルが特定の方法で配列されていないとみなしている。
ここでは、あるドメインの最先端モデルが、他のドメインのデータセット上でトレーニングおよびテストを行う際に、どのように機能するかを検討する。
論文 参考訳(メタデータ) (2024-11-20T20:07:25Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - A Survey on Extreme Multi-label Learning [72.8751573611815]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。
計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。
eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文 参考訳(メタデータ) (2022-10-08T08:31:34Z) - InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification [5.637543626451507]
インセプションXMLは軽量で、強力で、ショートテキストクエリにおけるワードオーダーの欠如に対して堅牢です。
InceptionXMLは、ベンチマークデータセットの既存のアプローチよりも優れているだけでなく、変換器のベースラインがわずか2%のFLOPしか必要としないことを示す。
論文 参考訳(メタデータ) (2021-09-13T18:55:37Z) - DECAF: Deep Extreme Classification with Label Features [9.768907751312396]
極端なマルチラベル分類(XML)では、非常に大きなラベルセットから最も関連性の高いラベルのサブセットにデータポイントをタグ付けする。
リードXMLアルゴリズムは数百万のラベルにスケールするが、ラベルのテキスト記述のようなラベルメタデータは無視される。
本稿では,ラベルメタデータに富んだ学習モデルを用いて,これらの課題に対処するDECAFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-08-01T05:36:05Z) - ECLARE: Extreme Classification with Label Graph Correlations [13.429436351837653]
本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。
ECLAREは、Bing検索エンジンからソースされた関連製品レコメンデーションタスク用のプロプライエタリデータセットと同様に、公開可能なベンチマークデータセットの両方で2~14%精度の予測を提供する。
論文 参考訳(メタデータ) (2021-07-31T15:13:13Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。