論文の概要: Embedding Convolutions for Short Text Extreme Classification with
Millions of Labels
- arxiv url: http://arxiv.org/abs/2109.07319v1
- Date: Mon, 13 Sep 2021 18:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:21:57.593235
- Title: Embedding Convolutions for Short Text Extreme Classification with
Millions of Labels
- Title(参考訳): 数百万のラベルを用いた短文極小分類のための畳み込み畳み込み
- Authors: Siddhant Kharbanda, Atmadeep Banerjee, Akash Palrecha, Rohit Babbar
- Abstract要約: Short Text Extreme Classificationは、最近、関連する検索や製品レコメンデーションタスクの予測に多くの応用を見出した。
本稿では、畳み込み操作をリキャストして、埋め込み次元に沿って結合された意味をキャプチャする手法を提案する。
畳み込み操作の計算効率から恩恵を受ける、エンリッチな単語埋め込みに適用された畳み込み畳み込みは、軽量で強力なエンコーダをもたらす(InceptionXML)。
- 参考スコア(独自算出の注目度): 1.7044368816068713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic annotation of short-text data to a large number of target labels,
referred to as Short Text Extreme Classification, has recently found numerous
applications in prediction of related searches and product recommendation
tasks. The conventional usage of Convolutional Neural Network (CNN) to capture
n-grams in text-classification relies heavily on uniformity in word-ordering
and the presence of long input sequences to convolve over. However, this is
missing in short and unstructured text sequences encountered in search and
recommendation. In order to tackle this, we propose an orthogonal approach by
recasting the convolution operation to capture coupled semantics along the
embedding dimensions, and develop a word-order agnostic embedding enhancement
module to deal with the lack of structure in such queries. Benefitting from the
computational efficiency of the convolution operation, Embedding Convolutions,
when applied on the enriched word embeddings, result in a light-weight and yet
powerful encoder (InceptionXML) that is robust to the inherent lack of
structure in short-text extreme classification.
Towards scaling our model to problems with millions of labels, we also
propose InceptionXML+, which addresses the shortcomings of the dynamic
hard-negative mining framework in the recently proposed LightXML by improving
the alignment between the label-shortlister and extreme classifier. On popular
benchmark datasets, we empirically demonstrate that the proposed method
outperforms state-of-the-art deep extreme classifiers such as Astec by an
average of 5% and 8% on the P@k and propensity-scored PSP@k metrics
respectively.
- Abstract(参考訳): ショートテキスト極端分類と呼ばれる多数のターゲットラベルに対するショートテキストデータの自動アノテーションは、最近、関連する検索と製品推奨タスクの予測に多くの応用が見つかった。
テキスト分類におけるn-gramを捉えるために従来の畳み込みニューラルネットワーク(CNN)は、単語順序の均一性と長い入力シーケンスの存在に大きく依存している。
しかし、これは検索やレコメンデーションで遭遇する短く非構造化のテキストシーケンスに欠けている。
そこで本研究では, 畳み込み操作をリキャストして, 組込み次元に沿った結合意味を捕捉し, 単語順に依存しない組込み拡張モジュールを開発し, クエリの構造の欠如に対処する直交アプローチを提案する。
畳み込み操作の計算効率の恩恵を受け、畳み込みが強化された単語埋め込みに適用されると、軽量かつ強力なエンコーダ(インセプションxml)となり、短文の極端な分類において構造が本質的に欠如していることに頑健になる。
InceptionXML+は、ラベルショートリストと極端な分類器の整合性を改善することで、最近提案されたLightXMLにおける動的なハードネガティブなマイニングフレームワークの欠点に対処します。
一般的なベンチマークデータセットでは,提案手法がastecのような最先端の深部極端分類器を平均5%,p@kで8%,psp@kメトリクスをそれぞれ上回っていることを実証的に示す。
関連論文リスト
- HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long-tailed Extreme Multi-label Text Classification with Generated
Pseudo Label Descriptions [28.416742933744942]
本稿では,新しい手法を提案することで,テールラベル予測の課題に対処する。
これは、厳しいデータ不足条件下で情報ラベル記述を生成するための訓練されたbacker-of-words(BoW)分類器の有効性を組み合わせたものである。
提案手法はXMTCベンチマークデータセット上での最先端性能を実現し,これまでで最高の手法であるテールラベル予測を著しく上回っている。
論文 参考訳(メタデータ) (2022-04-02T23:42:32Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data [22.81068960545234]
本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
論文 参考訳(メタデータ) (2021-09-22T17:29:01Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。