論文の概要: Supervised Text Classification using Text Search
- arxiv url: http://arxiv.org/abs/2011.13832v2
- Date: Mon, 30 Nov 2020 19:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 14:07:46.696303
- Title: Supervised Text Classification using Text Search
- Title(参考訳): テキスト検索を用いた教師付きテキスト分類
- Authors: Nabarun Mondal, Mrunal Lohia
- Abstract要約: 著者は、事前にラベル付けされたテキストデータの分類を正確に予測できる産業標準アルゴリズムのクラスを記述している。
これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised text classification is a classical and active area of ML research.
In large enterprise, solutions to this problem has significant importance. This
is specifically true in ticketing systems where prediction of the type and
subtype of tickets given new incoming ticket text to find out optimal routing
is a multi billion dollar industry.
In this paper authors describe a class of industrial standard algorithms
which can accurately ( 86\% and above ) predict classification of any text
given prior labelled text data - by novel use of any text search engine.
These algorithms were used to automate routing of issue tickets to the
appropriate team. This class of algorithms has far reaching consequences for a
wide variety of industrial applications, IT support, RPA script triggering,
even legal domain where massive set of pre labelled data are already available.
- Abstract(参考訳): 教師付きテキスト分類はML研究の古典的かつ活発な分野である。
大企業では、この問題に対する解決策が重要である。
これは、最適なルーティングを見つけるための新しいチケットテキストが与えられたチケットの種類とサブタイプの予測が数十億ドルの産業であるチケットシステムにおいて特に当てはまる。
本稿では,先行ラベル付きテキストデータから得られたテキストの分類を,新しいテキスト検索エンジンを用いて正確に(86\%以上)予測できる産業標準アルゴリズムのクラスについて述べる。
これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使われた。
この種のアルゴリズムは、幅広い産業アプリケーション、ITサポート、RPAスクリプトのトリガー、さらには大量のラベル付きデータがすでに利用可能である法的な領域においても、はるかに大きな成果を上げています。
関連論文リスト
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification [0.0]
テキストデータの処理には埋め込みが必要であり、テキストの内容を数値ベクトルに変換する方法である。
新たなテキスト埋め込み手法,すなわちガイド遷移確率行列(GTPM)モデルを提案する。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
論文 参考訳(メタデータ) (2024-04-25T18:48:11Z) - Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus [7.046417074932257]
本稿では,自然言語処理技術と機械学習アルゴリズムを組み合わせて,銀行取引記述を分類する新しいシステムについて述べる。
また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。
Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示する。
論文 参考訳(メタデータ) (2024-03-29T13:15:46Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches [0.0]
1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
このシステムは、6つの産業セクターに対して0.90以上の特性曲線と0.81以上のFスコアを受信機が操作する領域で有望な結果を得た。
論文 参考訳(メタデータ) (2023-03-08T12:41:56Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。