論文の概要: Multi-class Text Classification using BERT-based Active Learning
- arxiv url: http://arxiv.org/abs/2104.14289v1
- Date: Tue, 27 Apr 2021 19:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 03:28:21.066284
- Title: Multi-class Text Classification using BERT-based Active Learning
- Title(参考訳): BERTに基づくアクティブラーニングを用いた多クラステキスト分類
- Authors: Sumanth Prabhu and Moosa Mohamed and Hemant Misra
- Abstract要約: 顧客トランザクションを複数のカテゴリに分類することは、異なる顧客セグメントの市場ニーズを理解するのに役立つ。
BERTベースのモデルは自然言語理解でうまく機能することが証明されています。
マルチクラステキスト分類における様々なアクティブラーニング戦略間でBERTの性能をベンチマークする。
- 参考スコア(独自算出の注目度): 4.028503203417233
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text Classification finds interesting applications in the pickup and delivery
services industry where customers require one or more items to be picked up
from a location and delivered to a certain destination. Classifying these
customer transactions into multiple categories helps understand the market
needs for different customer segments. Each transaction is accompanied by a
text description provided by the customer to describe the products being picked
up and delivered which can be used to classify the transaction. BERT-based
models have proven to perform well in Natural Language Understanding. However,
the product descriptions provided by the customers tend to be short, incoherent
and code-mixed (Hindi-English) text which demands fine-tuning of such models
with manually labelled data to achieve high accuracy. Collecting this labelled
data can prove to be expensive. In this paper, we explore Active Learning
strategies to label transaction descriptions cost effectively while using BERT
to train a transaction classification model. On TREC-6, AG's News Corpus and an
internal dataset, we benchmark the performance of BERT across different Active
Learning strategies in Multi-Class Text Classification.
- Abstract(参考訳): テキスト分類は、顧客が場所から1つ以上のアイテムをピックアップし、特定の目的地に届ける必要があるピックアップおよびデリバリーサービス業界で興味深いアプリケーションを見つける。
これらの顧客トランザクションを複数のカテゴリに分類することは、異なる顧客セグメントの市場ニーズを理解するのに役立つ。
各トランザクションには、顧客が提供したテキスト記述が添付され、取り上げられた商品が記述され、トランザクションの分類に使用できる。
BERTベースのモデルは自然言語理解においてうまく機能することが証明されている。
しかし、顧客が提供する製品記述は短く、一貫性がなく、(ヒンディ・イングリッシュな)テキストになりがちで、手作業でラベル付けされたデータを微調整して精度を上げる必要がある。
このラベル付きデータの収集は、コストがかかることを証明します。
本稿では、BERTを用いてトランザクション分類モデルをトレーニングしながら、トランザクション記述を効果的にラベル付けするためのアクティブラーニング戦略を検討する。
TREC-6, AG's News Corpus, および内部データセット上で, マルチクラステキスト分類における様々なアクティブラーニング戦略間でBERTの性能をベンチマークする。
関連論文リスト
- Federated Learning with Only Positive Labels by Exploring Label Correlations [78.59613150221597]
フェデレートラーニングは、プライバシー上の制約の下で複数のユーザのデータを使用することで、モデルを協調的に学習することを目的としている。
本稿では,フェデレート学習環境下でのマルチラベル分類問題について検討する。
ラベル相関(FedALC)を探索してフェデレート平均化(Federated Averaging)と呼ばれる新しい,汎用的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-24T02:22:50Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Imbalanced Multi-label Classification for Business-related Text with
Moderately Large Label Spaces [0.30458514384586394]
我々は、特定の不均衡なビジネスデータセットを用いて、マルチラベルテキスト分類のための4つの異なる方法を評価した。
細調整されたBERTは、他の3つの手法よりもかなり優れており、精度の高い値が得られる。
これらの結果は,マルチラベルテキスト分類作業における細調整BERTの有効性を浮き彫りにし,企業にとって有用なツールである可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-12T11:51:50Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Improved Customer Transaction Classification using Semi-Supervised
Knowledge Distillation [0.0]
本稿では,セミスーパービジョンおよび知識蒸留フレームワークに基づくコスト効率の高いトランザクション分類手法を提案する。
このアプローチは、顧客が入力した自由テキストを用いてトランザクションのカテゴリを特定する。
弱いラベルを使い、人間の注釈付きサンプルを使うのと性能が似ていることに気付きます。
論文 参考訳(メタデータ) (2021-02-15T16:16:42Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。