論文の概要: Supervised Text Classification using Text Search
- arxiv url: http://arxiv.org/abs/2011.13832v2
- Date: Mon, 30 Nov 2020 19:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 14:07:46.696303
- Title: Supervised Text Classification using Text Search
- Title(参考訳): テキスト検索を用いた教師付きテキスト分類
- Authors: Nabarun Mondal, Mrunal Lohia
- Abstract要約: 著者は、事前にラベル付けされたテキストデータの分類を正確に予測できる産業標準アルゴリズムのクラスを記述している。
これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised text classification is a classical and active area of ML research.
In large enterprise, solutions to this problem has significant importance. This
is specifically true in ticketing systems where prediction of the type and
subtype of tickets given new incoming ticket text to find out optimal routing
is a multi billion dollar industry.
In this paper authors describe a class of industrial standard algorithms
which can accurately ( 86\% and above ) predict classification of any text
given prior labelled text data - by novel use of any text search engine.
These algorithms were used to automate routing of issue tickets to the
appropriate team. This class of algorithms has far reaching consequences for a
wide variety of industrial applications, IT support, RPA script triggering,
even legal domain where massive set of pre labelled data are already available.
- Abstract(参考訳): 教師付きテキスト分類はML研究の古典的かつ活発な分野である。
大企業では、この問題に対する解決策が重要である。
これは、最適なルーティングを見つけるための新しいチケットテキストが与えられたチケットの種類とサブタイプの予測が数十億ドルの産業であるチケットシステムにおいて特に当てはまる。
本稿では,先行ラベル付きテキストデータから得られたテキストの分類を,新しいテキスト検索エンジンを用いて正確に(86\%以上)予測できる産業標準アルゴリズムのクラスについて述べる。
これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使われた。
この種のアルゴリズムは、幅広い産業アプリケーション、ITサポート、RPAスクリプトのトリガー、さらには大量のラベル付きデータがすでに利用可能である法的な領域においても、はるかに大きな成果を上げています。
関連論文リスト
- Prompt Tuned Embedding Classification for Multi-Label Industry Sector
Allocation [2.2117527672874897]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches [0.0]
1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
このシステムは、6つの産業セクターに対して0.90以上の特性曲線と0.81以上のFスコアを受信機が操作する領域で有望な結果を得た。
論文 参考訳(メタデータ) (2023-03-08T12:41:56Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。