論文の概要: Text classification in shipping industry using unsupervised models and
Transformer based supervised models
- arxiv url: http://arxiv.org/abs/2212.12407v1
- Date: Wed, 21 Dec 2022 16:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:09:19.145195
- Title: Text classification in shipping industry using unsupervised models and
Transformer based supervised models
- Title(参考訳): 非教師付きモデルと変圧器型教師付きモデルを用いた運送業界のテキスト分類
- Authors: Ying Xie and Dongping Song
- Abstract要約: 本稿では,国際海運業界における輸送内容の分類を行うための,新規でシンプルな教師なしテキスト分類モデルを提案する。
提案手法は,事前学習したGlove Word Embeddingsを用いて単語を表現し,Cosine similarityを用いて最も可能性の高いラベルを見つけることに由来する。
教師なしテキスト分類モデルと教師付きテキスト分類モデルを比較するために,カーゴ内容の分類にいくつかのトランスフォーマーモデルを適用した。
- 参考スコア(独自算出の注目度): 1.4594704809280983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining labelled data in a particular context could be expensive and time
consuming. Although different algorithms, including unsupervised learning,
semi-supervised learning, self-learning have been adopted, the performance of
text classification varies with context. Given the lack of labelled dataset, we
proposed a novel and simple unsupervised text classification model to classify
cargo content in international shipping industry using the Standard
International Trade Classification (SITC) codes. Our method stems from
representing words using pretrained Glove Word Embeddings and finding the most
likely label using Cosine Similarity. To compare unsupervised text
classification model with supervised classification, we also applied several
Transformer models to classify cargo content. Due to lack of training data, the
SITC numerical codes and the corresponding textual descriptions were used as
training data. A small number of manually labelled cargo content data was used
to evaluate the classification performances of the unsupervised classification
and the Transformer based supervised classification. The comparison reveals
that unsupervised classification significantly outperforms Transformer based
supervised classification even after increasing the size of the training
dataset by 30%. Lacking training data is a key bottleneck that prohibits deep
learning models (such as Transformers) from successful practical applications.
Unsupervised classification can provide an alternative efficient and effective
method to classify text when there is scarce training data.
- Abstract(参考訳): ラベル付きデータを特定のコンテキストで保持することは、コストと時間を要する可能性がある。
教師なし学習、半教師付き学習、自己学習など様々なアルゴリズムが採用されているが、テキスト分類の性能は文脈によって異なる。
ラベル付きデータセットの欠如を考慮し,標準国際貿易分類 (sitc) コードを用いて国際運送業界における貨物コンテンツの分類を行うための,新規かつ単純で教師なしのテキスト分類モデルを提案した。
提案手法は,事前学習したGlove Word Embeddingsを用いて単語を表現し,Cosine similarityを用いて最も可能性の高いラベルを見つけることに由来する。
教師なしテキスト分類モデルと教師付きテキスト分類モデルを比較するために,カーゴ内容の分類にトランスフォーマーモデルを適用した。
トレーニングデータがないため、SITC数値コードと対応するテキスト記述がトレーニングデータとして使用された。
手動でラベル付けされた貨物内容データを用いて、教師なし分類とトランスフォーマーに基づく教師付き分類の分類性能を評価した。
比較の結果,トレーニングデータセットのサイズを30%増やしても,教師なし分類がトランスフォーマーベースの教師付き分類を大幅に上回ることがわかった。
トレーニングデータの欠落は、ディープラーニングモデル(Transformersなど)が実用的なアプリケーションの成功を妨げる重要なボトルネックである。
教師なし分類は、訓練データが少ないときにテキストを分類する、より効率的で効果的な方法を提供する。
関連論文リスト
- Multidimensional Perceptron for Efficient and Explainable Long Text
Classification [31.31206469613901]
本稿では,フレームワーク内の注目/RNNを置き換えるために,単純だが効果的なSegment-aWare多次元PErceptron(SWIPE)を提案する。
SWIPEは、テキスト全体のラベルを教師付きトレーニングで効果的に学習し、セグメントのラベルを認識し、長文ラベリングへの貢献を見積もる。
論文 参考訳(メタデータ) (2023-04-04T08:49:39Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - How does a Pre-Trained Transformer Integrate Contextual Keywords?
Application to Humanitarian Computing [0.0]
本稿では,各ツイートに危機イベントタイプを追加して人道的分類タスクを改善する方法について述べる。
これは、提案されたニューラルネットワークアプローチが、Crisis Benchmarkの特殊性を部分的に過度に適合しているかを示している。
論文 参考訳(メタデータ) (2021-11-07T11:24:08Z) - BERT got a Date: Introducing Transformers to Temporal Tagging [4.651578365545765]
本稿では,RoBERTa言語モデルを用いたトランスフォーマー・エンコーダ・デコーダモデルを提案する。
我々のモデルは、特に稀なクラスにおいて、時間的タグ付けや型分類において、過去の研究を上回っている。
論文 参考訳(メタデータ) (2021-09-30T08:54:21Z) - Discriminative and Generative Transformer-based Models For Situation
Entity Classification [8.029049649310211]
我々は、状況エンティティ(SE)分類タスクを、利用可能なトレーニングデータの量に応じて再検討する。
変換器を用いた変分オートエンコーダを用いて文を低次元の潜在空間に符号化する。
論文 参考訳(メタデータ) (2021-09-15T17:07:07Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。