Fugu-MT 論文翻訳(概要): Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social Media Streaming Data

論文の概要: Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social Media Streaming Data

arxiv url: http://arxiv.org/abs/2206.00524v1
Date: Wed, 1 Jun 2022 14:33:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 15:53:31.781350
Title: Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social Media Streaming Data
Title（参考訳）: PhoBERT-CNNとソーシャルメディアストリーミングデータを用いたベトナムのヘイトと攻撃検出
Authors: Khanh Q. Tran and An T. Nguyen and Phu Gia Hoang and Canh Duc Luu and Trong-Hop Do and Kiet Van Nguyen
Abstract要約: ベトナムのソーシャルメディアから収集したコメントをクリーンにするための,効率的な事前処理手法を提案する。 PhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルがベトナムの課題を解決するために提案された。 EDA技術は、不均衡なデータを扱うために応用され、分類モデルの性能を改善する。
参考スコア（独自算出の注目度）: 2.5934729511903445
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Society needs to develop a system to detect hate and offense to build a healthy and safe environment. However, current research in this field still faces four major shortcomings, including deficient pre-processing techniques, indifference to data imbalance issues, modest performance models, and lacking practical applications. This paper focused on developing an intelligent system capable of addressing these shortcomings. Firstly, we proposed an efficient pre-processing technique to clean comments collected from Vietnamese social media. Secondly, a novel hate speech detection (HSD) model, which is the combination of a pre-trained PhoBERT model and a Text-CNN model, was proposed for solving tasks in Vietnamese. Thirdly, EDA techniques are applied to deal with imbalanced data to improve the performance of classification models. Besides, various experiments were conducted as baselines to compare and investigate the proposed model's performance against state-of-the-art methods. The experiment results show that the proposed PhoBERT-CNN model outperforms SOTA methods and achieves an F1-score of 67,46% and 98,45% on two benchmark datasets, ViHSD and HSD-VLSP, respectively. Finally, we also built a streaming HSD application to demonstrate the practicality of our proposed system.
Abstract（参考訳）: 社会は、健康で安全な環境を構築するために、憎悪と悪を検知するシステムを開発する必要がある。しかし、この分野の現在の研究は、未処理の事前処理技術、データ不均衡の問題への無関心、控えめなパフォーマンスモデル、実用的な応用の欠如を含む4つの大きな欠点に直面している。本稿では,これらの問題点に対処可能なインテリジェントシステムの開発に焦点をあてる。まず,ベトナムのソーシャルメディアから収集したコメントをきれいにするための効率的な前処理手法を提案する。次に,ベトナムにおける課題解決のために,事前学習されたPhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルを提案した。第3に,不均衡なデータを扱うためにEDA手法を適用し,分類モデルの性能を向上させる。さらに,提案モデルの性能を最先端手法と比較し,検討するためのベースラインとして様々な実験を行った。実験の結果,提案したPhoBERT-CNNモデルはSOTA法より優れており,2つのベンチマークデータセット(ViHSDとHSD-VLSP)でそれぞれ67,46%,98,45%のF1スコアを達成した。最後に,提案システムの実用性を示すために,ストリーミングhsdアプリケーションを構築した。

関連論文リスト

RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
BERT-based model for Vietnamese Fact Verification Dataset [0.0]
本稿では,ベトナムのデータセットを用いたFact Verificationの課題に対処するアプローチを提案する。提案手法は,事前学習したPhoBERTとXLM-RoBERTaをネットワークのバックボーンとして利用することにより,大規模言語モデルのパワーを活用する。特に、Strictの精度は75.11%に達し、ベースラインモデルよりも28.83%改善した。
論文参考訳（メタデータ） (2025-03-01T05:31:04Z)
Expanding Vietnamese SentiWordNet to Improve Performance of Vietnamese Sentiment Analysis Models [0.0]
本稿ではベトナム語レビューの感性分析のためのPhoBERT-V2とSentiWordnetを組み合わせた新しいアプローチを提案する。提案モデルではベトナム語に対してPhoBERT-V2を用いて,ベトナム語の文脈における顕著なBERTモデルのロバストな最適化を行う。
論文参考訳（メタデータ） (2025-01-15T12:22:37Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic [2.5182419298876857]
マルチクラス分類モデルは特定のタイプの攻撃を識別し、より標的的で効果的なインシデント応答を可能にする。最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。
論文参考訳（メタデータ） (2024-08-28T12:44:07Z)
ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model [0.0]
提案する大規模ドメイン固有データセット VOZ-HSD を事前トレーニングした T5 ベースのモデルである ViHateT5 を紹介する。 ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-05-23T03:31:50Z)
Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。 30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文参考訳（メタデータ） (2023-11-02T15:35:58Z)
Incremental Outlier Detection Modelling Using Streaming Analytics in Finance & Health Care [0.0]
私たちは、ストリーミングデータに取り組むためにストリーミングモデルを持つことが極めて必要であることを確認しました。本研究の目的は,実環境に適用可能なストリーミングモデルの研究と分析である。
論文参考訳（メタデータ） (2023-05-17T02:30:28Z)
Diffusion Denoising Process for Perceptron Bias in Out-of-distribution Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。 DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。 CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T08:45:08Z)
A New Knowledge Distillation Network for Incremental Few-Shot Surface Defect Detection [20.712532953953808]
本稿では,DKAN(Dual Knowledge Align Network)と呼ばれる新しい知識蒸留ネットワークを提案する。提案したDKAN法は,事前学習型ファインタニング伝達学習パラダイムを踏襲し,ファインタニングのための知識蒸留フレームワークを設計した。 Few-shot NEU-DETデータセットをインクリメンタルに実験した結果、DKANは様々なシーンで他の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-09-01T15:08:44Z)
NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文参考訳（メタデータ） (2021-08-29T06:58:28Z)
Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2021-05-06T14:12:26Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。