論文の概要: Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social
Media Streaming Data
- arxiv url: http://arxiv.org/abs/2206.00524v1
- Date: Wed, 1 Jun 2022 14:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:53:31.781350
- Title: Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social
Media Streaming Data
- Title(参考訳): PhoBERT-CNNとソーシャルメディアストリーミングデータを用いたベトナムのヘイトと攻撃検出
- Authors: Khanh Q. Tran and An T. Nguyen and Phu Gia Hoang and Canh Duc Luu and
Trong-Hop Do and Kiet Van Nguyen
- Abstract要約: ベトナムのソーシャルメディアから収集したコメントをクリーンにするための,効率的な事前処理手法を提案する。
PhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルがベトナムの課題を解決するために提案された。
EDA技術は、不均衡なデータを扱うために応用され、分類モデルの性能を改善する。
- 参考スコア(独自算出の注目度): 2.5934729511903445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Society needs to develop a system to detect hate and offense to build a
healthy and safe environment. However, current research in this field still
faces four major shortcomings, including deficient pre-processing techniques,
indifference to data imbalance issues, modest performance models, and lacking
practical applications. This paper focused on developing an intelligent system
capable of addressing these shortcomings. Firstly, we proposed an efficient
pre-processing technique to clean comments collected from Vietnamese social
media. Secondly, a novel hate speech detection (HSD) model, which is the
combination of a pre-trained PhoBERT model and a Text-CNN model, was proposed
for solving tasks in Vietnamese. Thirdly, EDA techniques are applied to deal
with imbalanced data to improve the performance of classification models.
Besides, various experiments were conducted as baselines to compare and
investigate the proposed model's performance against state-of-the-art methods.
The experiment results show that the proposed PhoBERT-CNN model outperforms
SOTA methods and achieves an F1-score of 67,46% and 98,45% on two benchmark
datasets, ViHSD and HSD-VLSP, respectively. Finally, we also built a streaming
HSD application to demonstrate the practicality of our proposed system.
- Abstract(参考訳): 社会は、健康で安全な環境を構築するために、憎悪と悪を検知するシステムを開発する必要がある。
しかし、この分野の現在の研究は、未処理の事前処理技術、データ不均衡の問題への無関心、控えめなパフォーマンスモデル、実用的な応用の欠如を含む4つの大きな欠点に直面している。
本稿では,これらの問題点に対処可能なインテリジェントシステムの開発に焦点をあてる。
まず,ベトナムのソーシャルメディアから収集したコメントをきれいにするための効率的な前処理手法を提案する。
次に,ベトナムにおける課題解決のために,事前学習されたPhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルを提案した。
第3に,不均衡なデータを扱うためにEDA手法を適用し,分類モデルの性能を向上させる。
さらに,提案モデルの性能を最先端手法と比較し,検討するためのベースラインとして様々な実験を行った。
実験の結果,提案したPhoBERT-CNNモデルはSOTA法より優れており,2つのベンチマークデータセット(ViHSDとHSD-VLSP)でそれぞれ67,46%,98,45%のF1スコアを達成した。
最後に,提案システムの実用性を示すために,ストリーミングhsdアプリケーションを構築した。
関連論文リスト
- Deep Learning-Based Cyber-Attack Detection Model for Smart Grids [6.642400003243118]
監視制御とデータ取得(SCADA)により、受信した負荷データに対するデータ完全性サイバー攻撃(DIA)を防止するために、人工知能に基づく新しいサイバー攻撃検出モデルを開発した。
提案モデルでは、まず回帰モデルを用いて負荷データを予測し、処理後、教師なし学習法を用いて処理データをクラスタ化する。
提案したEE-BiLSTM法は,他の2つの手法と比較して,より堅牢かつ高精度に動作可能である。
論文 参考訳(メタデータ) (2023-12-14T10:54:04Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Incremental Outlier Detection Modelling Using Streaming Analytics in
Finance & Health Care [0.0]
私たちは、ストリーミングデータに取り組むためにストリーミングモデルを持つことが極めて必要であることを確認しました。
本研究の目的は,実環境に適用可能なストリーミングモデルの研究と分析である。
論文 参考訳(メタデータ) (2023-05-17T02:30:28Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - A New Knowledge Distillation Network for Incremental Few-Shot Surface
Defect Detection [20.712532953953808]
本稿では,DKAN(Dual Knowledge Align Network)と呼ばれる新しい知識蒸留ネットワークを提案する。
提案したDKAN法は,事前学習型ファインタニング伝達学習パラダイムを踏襲し,ファインタニングのための知識蒸留フレームワークを設計した。
Few-shot NEU-DETデータセットをインクリメンタルに実験した結果、DKANは様々なシーンで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-09-01T15:08:44Z) - Robust Trajectory Prediction against Adversarial Attacks [84.10405251683713]
ディープニューラルネットワーク(DNN)を用いた軌道予測は、自律運転システムにおいて不可欠な要素である。
これらの手法は敵の攻撃に対して脆弱であり、衝突などの重大な結果をもたらす。
本研究では,敵対的攻撃に対する軌道予測モデルを保護するための2つの重要な要素を同定する。
論文 参考訳(メタデータ) (2022-07-29T22:35:05Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - A Full Text-Dependent End to End Mispronunciation Detection and
Diagnosis with Easy Data Augmentation Techniques [28.59181595057581]
sed-mddとの違いである新しいテキスト依存モデルを提案する。
本論文では,モデルが誤発音音素を捕捉する能力を効果的に向上する3つの単純なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T03:11:41Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。