論文の概要: A Text Classification Model Combining Adversarial Training with Pre-trained Language Model and neural networks: A Case Study on Telecom Fraud Incident Texts
- arxiv url: http://arxiv.org/abs/2411.06772v1
- Date: Mon, 11 Nov 2024 07:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:44.537054
- Title: A Text Classification Model Combining Adversarial Training with Pre-trained Language Model and neural networks: A Case Study on Telecom Fraud Incident Texts
- Title(参考訳): 事前学習型言語モデルとニューラルネットワークを組み合わせたテキスト分類モデル:テレコムフラッドインシデントテキストを事例として
- Authors: Liu Zhuoxian, Shi Tuo, Hu Xiaofeng,
- Abstract要約: 本稿では,事前学習型言語モデルとニューラルネットワークを併用したテキスト分類モデルを提案する。
このモデルは、運用部門が提供した通信不正事件データの一部をトレーニングすると、83.9%の分類精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Front-line police officers often categorize all police call reported cases of Telecom Fraud into 14 subcategories to facilitate targeted prevention measures, such as precise public education. However, the associated data is characterized by its large volume, diverse information content, and variations in expression. Currently, there is a lack of efficient and accurate intelligent models to replace manual classification, which, while precise, is relatively inefficient. To address these challenges, this paper proposes a text classification model that combines adversarial training with Pre-trained Language Model and neural networks. The Linguistically-motivated Pre-trained Language Model model extracts three types of language features and then utilizes the Fast Gradient Method algorithm to perturb the generated embedding layer. Subsequently, the Bi-directional Long Short-Term Memory and Convolutional Neural Networks networks extract contextual syntactic information and local semantic information, respectively. The model achieved an 83.9% classification accuracy when trained on a portion of telecom fraud case data provided by the operational department. The model established in this paper has been deployed in the operational department, freeing up a significant amount of manpower and improving the department's efficiency in combating Telecom Fraud crimes. Furthermore, considering the universality of the model established in this paper, other application scenarios await further exploration.
- Abstract(参考訳): 最前線の警察官は、Telecom Fraudの報告されたすべての警察の通報を14のサブカテゴリに分類し、正確な公共教育など、標的となる予防措置を推進している。
しかし、関連するデータは、その膨大な量、多様な情報内容、表現のバリエーションによって特徴づけられる。
現在、手作業の分類を置き換える効率的で正確なインテリジェントなモデルがない。
これらの課題に対処するため,本稿では,対人訓練と事前学習言語モデル,ニューラルネットワークを組み合わせたテキスト分類モデルを提案する。
言語的に動機付けられた事前学習言語モデルでは,3種類の言語特徴を抽出し,Fast Gradient Methodアルゴリズムを用いて生成した埋め込み層を摂動する。
その後、双方向長短期記憶と畳み込みニューラルネットワークは、それぞれ文脈的構文情報と局所的意味情報を抽出する。
このモデルは、運用部門が提供した通信不正事件データの一部をトレーニングすると、83.9%の分類精度を達成した。
本論文で確立されたモデルは運用部門に展開され,大量の人材を解放し,テレコム・フレイド犯罪と戦う際の省の効率を向上した。
さらに、本論文で確立されたモデルの普遍性を考えると、他の応用シナリオはさらなる探索を待つことになる。
関連論文リスト
- KLCBL: An Improved Police Incident Classification Model [0.0]
警察のインシデントデータは、公共のセキュリティインテリジェンスにとって不可欠だが、草の根機関は、手動の非効率性と自動システムの制限のために、効率的な分類に苦慮している。
本研究では,言語的に強化されたテキスト前処理アプローチ(LERT),畳み込みニューラルネットワーク(CNN),双方向長短期記憶(BiLSTM)を組み合わせた多チャンネルニューラルネットワークモデルKLCBLを提案する。
このモデルは、分類問題に対処し、警察の情報化を強化し、資源割り当てを改善し、他の分類タスクに幅広い適用性を提供する。
論文 参考訳(メタデータ) (2024-11-11T07:02:23Z) - Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - Enhancing Traffic Incident Management with Large Language Models: A Hybrid Machine Learning Approach for Severity Classification [3.674863913115431]
本研究は,交通事故管理のための機械学習への大規模言語モデルの革新的な統合を実証する。
インシデントレポートから抽出した従来のデータと並行して,現代の言語モデルが生成する特徴を活用することで,重度分類の精度の向上を実証する。
論文 参考訳(メタデータ) (2024-03-20T12:33:51Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - KDSTM: Neural Semi-supervised Topic Modeling with Knowledge Distillation [5.688430564294212]
テキスト分類タスクでは、BERT や GPT-3 のような事前訓練された言語モデルを微調整することで、競争精度が向上する。
一般的な話題モデリング手法は、事前学習を必要とせず、意味のある単語のパターンを抽出するために文書を解析する利点がある。
我々は、テキスト分類タスクにおけるトピックモデリングの教師なし洞察抽出を活用するために、知識蒸留半教師付きトピックモデリング(KDSTM)を開発した。
論文 参考訳(メタデータ) (2023-07-04T18:49:19Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。