論文の概要: Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social
Media Streaming Data
- arxiv url: http://arxiv.org/abs/2206.00524v1
- Date: Wed, 1 Jun 2022 14:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:53:31.781350
- Title: Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social
Media Streaming Data
- Title(参考訳): PhoBERT-CNNとソーシャルメディアストリーミングデータを用いたベトナムのヘイトと攻撃検出
- Authors: Khanh Q. Tran and An T. Nguyen and Phu Gia Hoang and Canh Duc Luu and
Trong-Hop Do and Kiet Van Nguyen
- Abstract要約: ベトナムのソーシャルメディアから収集したコメントをクリーンにするための,効率的な事前処理手法を提案する。
PhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルがベトナムの課題を解決するために提案された。
EDA技術は、不均衡なデータを扱うために応用され、分類モデルの性能を改善する。
- 参考スコア(独自算出の注目度): 2.5934729511903445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Society needs to develop a system to detect hate and offense to build a
healthy and safe environment. However, current research in this field still
faces four major shortcomings, including deficient pre-processing techniques,
indifference to data imbalance issues, modest performance models, and lacking
practical applications. This paper focused on developing an intelligent system
capable of addressing these shortcomings. Firstly, we proposed an efficient
pre-processing technique to clean comments collected from Vietnamese social
media. Secondly, a novel hate speech detection (HSD) model, which is the
combination of a pre-trained PhoBERT model and a Text-CNN model, was proposed
for solving tasks in Vietnamese. Thirdly, EDA techniques are applied to deal
with imbalanced data to improve the performance of classification models.
Besides, various experiments were conducted as baselines to compare and
investigate the proposed model's performance against state-of-the-art methods.
The experiment results show that the proposed PhoBERT-CNN model outperforms
SOTA methods and achieves an F1-score of 67,46% and 98,45% on two benchmark
datasets, ViHSD and HSD-VLSP, respectively. Finally, we also built a streaming
HSD application to demonstrate the practicality of our proposed system.
- Abstract(参考訳): 社会は、健康で安全な環境を構築するために、憎悪と悪を検知するシステムを開発する必要がある。
しかし、この分野の現在の研究は、未処理の事前処理技術、データ不均衡の問題への無関心、控えめなパフォーマンスモデル、実用的な応用の欠如を含む4つの大きな欠点に直面している。
本稿では,これらの問題点に対処可能なインテリジェントシステムの開発に焦点をあてる。
まず,ベトナムのソーシャルメディアから収集したコメントをきれいにするための効率的な前処理手法を提案する。
次に,ベトナムにおける課題解決のために,事前学習されたPhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルを提案した。
第3に,不均衡なデータを扱うためにEDA手法を適用し,分類モデルの性能を向上させる。
さらに,提案モデルの性能を最先端手法と比較し,検討するためのベースラインとして様々な実験を行った。
実験の結果,提案したPhoBERT-CNNモデルはSOTA法より優れており,2つのベンチマークデータセット(ViHSDとHSD-VLSP)でそれぞれ67,46%,98,45%のF1スコアを達成した。
最後に,提案システムの実用性を示すために,ストリーミングhsdアプリケーションを構築した。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic [2.5182419298876857]
マルチクラス分類モデルは特定のタイプの攻撃を識別し、より標的的で効果的なインシデント応答を可能にする。
最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。
本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-08-28T12:44:07Z) - ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model [0.0]
提案する大規模ドメイン固有データセット VOZ-HSD を事前トレーニングした T5 ベースのモデルである ViHateT5 を紹介する。
ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-05-23T03:31:50Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Incremental Outlier Detection Modelling Using Streaming Analytics in
Finance & Health Care [0.0]
私たちは、ストリーミングデータに取り組むためにストリーミングモデルを持つことが極めて必要であることを確認しました。
本研究の目的は,実環境に適用可能なストリーミングモデルの研究と分析である。
論文 参考訳(メタデータ) (2023-05-17T02:30:28Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - A New Knowledge Distillation Network for Incremental Few-Shot Surface
Defect Detection [20.712532953953808]
本稿では,DKAN(Dual Knowledge Align Network)と呼ばれる新しい知識蒸留ネットワークを提案する。
提案したDKAN法は,事前学習型ファインタニング伝達学習パラダイムを踏襲し,ファインタニングのための知識蒸留フレームワークを設計した。
Few-shot NEU-DETデータセットをインクリメンタルに実験した結果、DKANは様々なシーンで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-09-01T15:08:44Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。