論文の概要: Deep Learning Approach for Classifying the Aggressive Comments on Social
Media: Machine Translated Data Vs Real Life Data
- arxiv url: http://arxiv.org/abs/2303.07484v1
- Date: Mon, 13 Mar 2023 21:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:23:30.030463
- Title: Deep Learning Approach for Classifying the Aggressive Comments on Social
Media: Machine Translated Data Vs Real Life Data
- Title(参考訳): ソーシャルメディアにおける攻撃的コメントの分類のための深層学習アプローチ:機械翻訳データと実生活データ
- Authors: Mst Shapna Akter, Hossain Shahriar, Nova Ahmed, Alfredo Cuzzocrea
- Abstract要約: 本稿では特に,アグレッシブコメントを検出するために,ヒンディー語,バングラ語,英語のデータセットについて研究した。
機械翻訳された英語データセットを,Long Short term memory model (LSTM), Bidirectional Long-Short term memory model (BiLSTM), word2vec, Bidirectional Representations from Transformers (BERT), Generative Pre-trained Transformer (GPT-2) などのモデルを用いて解析した。
ノイズを含まない生データや、特定のノイズ量を含む半ノイズデータなど、さらに2つのデータセットを用いてノイズデータを使用することの性能を比較した。
- 参考スコア(独自算出の注目度): 15.813222387547357
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aggressive comments on social media negatively impact human life. Such
offensive contents are responsible for depression and suicidal-related
activities. Since online social networking is increasing day by day, the hate
content is also increasing. Several investigations have been done on the domain
of cyberbullying, cyberaggression, hate speech, etc. The majority of the
inquiry has been done in the English language. Some languages (Hindi and
Bangla) still lack proper investigations due to the lack of a dataset. This
paper particularly worked on the Hindi, Bangla, and English datasets to detect
aggressive comments and have shown a novel way of generating machine-translated
data to resolve data unavailability issues. A fully machine-translated English
dataset has been analyzed with the models such as the Long Short term memory
model (LSTM), Bidirectional Long-short term memory model (BiLSTM),
LSTM-Autoencoder, word2vec, Bidirectional Encoder Representations from
Transformers (BERT), and generative pre-trained transformer (GPT-2) to make an
observation on how the models perform on a machine-translated noisy dataset. We
have compared the performance of using the noisy data with two more datasets
such as raw data, which does not contain any noises, and semi-noisy data, which
contains a certain amount of noisy data. We have classified both the raw and
semi-noisy data using the aforementioned models. To evaluate the performance of
the models, we have used evaluation metrics such as F1-score,accuracy,
precision, and recall. We have achieved the highest accuracy on raw data using
the gpt2 model, semi-noisy data using the BERT model, and fully
machine-translated data using the BERT model. Since many languages do not have
proper data availability, our approach will help researchers create
machine-translated datasets for several analysis purposes.
- Abstract(参考訳): ソーシャルメディアに対する攻撃的なコメントは、人間の生活に悪影響を及ぼす。
このような攻撃的な内容は抑うつや自殺に関連する活動に責任がある。
オンラインソーシャルネットワークは日に日に増えているので、ヘイトコンテンツも増えている。
サイバーいじめ、サイバー攻撃、ヘイトスピーチなどに関するいくつかの調査が行われている。
調査の大半は英語で行われている。
一部の言語(ヒンディ語とバングラ語)は、データセットの欠如による適切な調査をまだ欠いている。
本稿では,ヒンディー語,バングラ語,英語のデータセットを用いて攻撃的コメントの検出を行い,機械翻訳データを生成する新しい手法を提案する。
機械翻訳された英語データセットは,Long Short term memory model (LSTM), Bidirectional Long-Short term memory model (BiLSTM), LSTM-Autoencoder, word2vec, Bidirectional Encoder Representations from Transformers (BERT), Generative pre-trained transformer (GPT-2) などのモデルを用いて解析され,機械翻訳されたノイズデータセット上でモデルがどのように機能するかを観察した。
本研究では,ノイズを含まない生データと,一定の雑音データを含む半雑音データといった,さらに2つのデータセットでノイズデータを使用する場合の性能を比較した。
上記のモデルを用いて生・半ノイズデータの分類を行った。
モデルの性能を評価するために,F1スコア,精度,精度,リコールなどの評価指標を用いた。
我々は,gpt2モデル,BERTモデルを用いた半ノイズデータ,BERTモデルを用いた完全機械翻訳データを用いて,生データ上で最高の精度を達成した。
多くの言語が適切なデータ可用性を持っていないため、我々のアプローチは研究者がいくつかの分析目的で機械翻訳データセットを作成するのに役立つだろう。
関連論文リスト
- Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - A Trustable LSTM-Autoencoder Network for Cyberbullying Detection on
Social Media Using Synthetic Data [2.378735224874938]
本稿では,ソーシャルメディア上でのサイバーバブル検出のための信頼性の高いLSTM-Autoencoderネットワークを提案する。
我々は、機械翻訳データを生成することにより、データの可用性の難しさに対処する最先端の手法を実証した。
我々はヒンディー語、バングラ語、英語のデータセットに対するアグレッシブなコメントを実験的に同定した。
論文 参考訳(メタデータ) (2023-08-15T17:20:05Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Text Classification Using Hybrid Machine Learning Algorithms on Big Data [0.0]
本研究では,2つの教師付き機械学習アルゴリズムとテキストマイニング技術を組み合わせてハイブリッドモデルを生成する。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のNa"ive BayesとSVMモデルに対して96.76%の精度を示した。
論文 参考訳(メタデータ) (2021-03-30T19:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。