論文の概要: Enhanced Arabic-language cyberbullying detection: deep embedding and transformer (BERT) approaches
- arxiv url: http://arxiv.org/abs/2510.02232v1
- Date: Thu, 02 Oct 2025 17:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.248083
- Title: Enhanced Arabic-language cyberbullying detection: deep embedding and transformer (BERT) approaches
- Title(参考訳): アラビア語によるサイバーバブル検出の強化:ディープ埋め込みとトランスフォーマー(BERT)アプローチ
- Authors: Ebtesam Jaber Aljohani, Wael M. S. Yafoo,
- Abstract要約: アラビア語のサイバーいじめを検出する方法は少ない。
本稿では,アラビア語コンテンツにおけるサイバーいじめの検出方法の有効性を高めることを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent technological advances in smartphones and communications, including the growth of such online platforms as massive social media networks such as X (formerly known as Twitter) endangers young people and their emotional well-being by exposing them to cyberbullying, taunting, and bullying content. Most proposed approaches for automatically detecting cyberbullying have been developed around the English language, and methods for detecting Arabic-language cyberbullying are scarce. Methods for detecting Arabic-language cyberbullying are especially scarce. This paper aims to enhance the effectiveness of methods for detecting cyberbullying in Arabic-language content. We assembled a dataset of 10,662 X posts, pre-processed the data, and used the kappa tool to verify and enhance the quality of our annotations. We conducted four experiments to test numerous deep learning models for automatically detecting Arabic-language cyberbullying. We first tested a long short-term memory (LSTM) model and a bidirectional long short-term memory (Bi-LSTM) model with several experimental word embeddings. We also tested the LSTM and Bi-LSTM models with a novel pre-trained bidirectional encoder from representations (BERT) and then tested them on a different experimental models BERT again. LSTM-BERT and Bi-LSTM-BERT demonstrated a 97% accuracy. Bi-LSTM with FastText embedding word performed even better, achieving 98% accuracy. As a result, the outcomes are generalize
- Abstract(参考訳): X(以前はTwitterと呼ばれていた)のような巨大なソーシャルメディアネットワークのようなオンラインプラットフォームの成長を含む、スマートフォンや通信の最近の技術進歩は、若者や彼らの感情的な幸福を危険にさらす。
提案手法は英語を中心に開発されており,アラビア語によるサイバーいじめを検出する手法は乏しい。
アラビア語のサイバーいじめを検出する方法は特に少ない。
本稿では,アラビア語コンテンツにおけるサイバーいじめの検出方法の有効性を高めることを目的とする。
10,662のXポストのデータセットを集め、データを前処理し、カッパツールを使ってアノテーションの品質を検証し、拡張しました。
アラビア語によるサイバーいじめを自動的に検出する深層学習モデルの試験を4回行った。
まず,長期記憶モデル (LSTM) と双方向長短期記憶モデル (Bi-LSTM) について実験を行った。
また,表現(BERT)から事前学習された双方向エンコーダを用いてLSTMおよびBi-LSTMモデルを試験し,異なる実験モデルBERTで再度試験した。
LSTM-BERTとBi-LSTM-BERTは97%の精度を示した。
FastText埋め込みワードによるBi-LSTMの精度は98%向上した。
その結果、結果は一般化される。
関連論文リスト
- The Use of a Large Language Model for Cyberbullying Detection [0.0]
サイバーいじめ(CB)は、今日のサイバー世界で最も多い現象である。
これは市民の精神的および身体的健康に対する深刻な脅威である。
これにより、オンラインフォーラム、ブログ、ソーシャルメディアプラットフォームからいじめコンテンツを防ぐ堅牢なシステムを開発する必要が生じる。
論文 参考訳(メタデータ) (2024-02-06T15:46:31Z) - Explain Thyself Bully: Sentiment Aided Cyberbullying Detection with
Explanation [52.3781496277104]
さまざまなソーシャルメディアネットワークやオンラインコミュニケーションアプリの人気により、サイバーいじめが大きな問題になっている。
一般データ保護規則の「説明の権利」のような近年の法律は、解釈可能なモデルの開発に拍車をかけた。
我々は,コード混在言語からの自動サイバーバブル検出のための,mExCBと呼ばれる最初の解釈可能なマルチタスクモデルを開発した。
論文 参考訳(メタデータ) (2024-01-17T07:36:22Z) - A Trustable LSTM-Autoencoder Network for Cyberbullying Detection on
Social Media Using Synthetic Data [2.378735224874938]
本稿では,ソーシャルメディア上でのサイバーバブル検出のための信頼性の高いLSTM-Autoencoderネットワークを提案する。
我々は、機械翻訳データを生成することにより、データの可用性の難しさに対処する最先端の手法を実証した。
我々はヒンディー語、バングラ語、英語のデータセットに対するアグレッシブなコメントを実験的に同定した。
論文 参考訳(メタデータ) (2023-08-15T17:20:05Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文 参考訳(メタデータ) (2021-01-22T21:50:38Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。