論文の概要: Offensive Language Detection on Social Media Using XLNet
- arxiv url: http://arxiv.org/abs/2506.21795v1
- Date: Thu, 26 Jun 2025 22:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.023294
- Title: Offensive Language Detection on Social Media Using XLNet
- Title(参考訳): XLNetを用いたソーシャルメディアにおける攻撃言語検出
- Authors: Reem Alothman, Hafida Benhidour, Said Kerrache,
- Abstract要約: 一般化された自己回帰事前学習手法であるXLNetに基づく自動攻撃言語検出モデルを提案し,その性能をBERT(Bigressive Representations from Transformers)と比較した。
実験の結果,XLNet は攻撃内容の検出や犯罪の種類分類において BERT よりも優れており,BERT は攻撃対象の特定において BERT の方が若干優れていた。
これらの知見は、ソーシャルメディアプラットフォーム上で攻撃的言語を検出する堅牢なシステムを構築するために、トランスファーラーニングとXLNetベースのアーキテクチャの可能性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of text-based communication on social media-through chats, comments, and microblogs-has improved user interaction but has also led to an increase in offensive content, including hate speech, racism, and other forms of abuse. Due to the enormous volume of user-generated content, manual moderation is impractical, which creates a need for automated systems that can detect offensive language. Deep learning models, particularly those using transfer learning, have demonstrated significant success in understanding natural language through large-scale pretraining. In this study, we propose an automatic offensive language detection model based on XLNet, a generalized autoregressive pretraining method, and compare its performance with BERT (Bidirectional Encoder Representations from Transformers), which is a widely used baseline in natural language processing (NLP). Both models are evaluated using the Offensive Language Identification Dataset (OLID), a benchmark Twitter dataset that includes hierarchical annotations. Our experimental results show that XLNet outperforms BERT in detecting offensive content and in categorizing the types of offenses, while BERT performs slightly better in identifying the targets of the offenses. Additionally, we find that oversampling and undersampling strategies are effective in addressing class imbalance and improving classification performance. These findings highlight the potential of transfer learning and XLNet-based architectures to create robust systems for detecting offensive language on social media platforms.
- Abstract(参考訳): ソーシャルメディア上でのチャットやコメント、マイクロブログなどにおけるテキストベースのコミュニケーションの普及は、ユーザーインタラクションを改善する一方で、ヘイトスピーチや人種差別など、攻撃的なコンテンツの増加につながっている。
膨大な量のユーザ生成コンテンツのため、手動のモデレーションは非現実的であり、攻撃的な言語を検出する自動化システムの必要性が生じる。
ディープラーニングモデル、特にトランスファーラーニングを用いたモデルは、大規模な事前学習を通じて自然言語を理解することに大きな成功を収めている。
本研究では、一般化された自己回帰事前学習手法であるXLNetに基づく自動攻撃型言語検出モデルを提案し、その性能を自然言語処理(NLP)において広く使われているBERT(Bidirectional Encoder Representations from Transformers)と比較する。
どちらのモデルも、階層的なアノテーションを含むTwitterのベンチマークデータセットであるOffensive Language Identification Dataset (OLID)を使用して評価されている。
実験の結果,XLNet は攻撃内容の検出や犯罪の種類分類において BERT よりも優れており,BERT は攻撃対象の特定において BERT の方が若干優れていた。
さらに、オーバーサンプリングとアンダーサンプリングの戦略は、クラス不均衡に対処し、分類性能を向上させるのに有効であることがわかった。
これらの知見は、ソーシャルメディアプラットフォーム上で攻撃的言語を検出する堅牢なシステムを構築するために、トランスファーラーニングとXLNetベースのアーキテクチャの可能性を強調している。
関連論文リスト
- Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Detecting Offensive Language on Social Networks: An End-to-end Detection
Method based on Graph Attention Networks [7.723697303436006]
攻撃的言語検出(CT-OLD)のためのコミュニティ構造とテキスト特徴に基づくエンドツーエンド手法を提案する。
ユーザの特徴を表現するために,コミュニティ構造にユーザ意見を追加する。ユーザ意見は,ユーザ履歴行動情報によって表現され,テキスト情報によって表現されるものよりも優れる。
論文 参考訳(メタデータ) (2022-03-04T03:57:18Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - Transfer Learning Approach for Arabic Offensive Language Detection
System -- BERT-Based Model [0.0]
サイバーヘイト、オンラインハラスメント、その他のテクノロジーの誤用が増えている。
ナチュラル・ランゲージ・プロセッシング(NLP)分野の高度な技術を活用して、オンラインヘイトフリーコミュニティの開発を支援することは、社会正義にとって重要な課題である。
本研究は,複数のアラビア語攻撃言語データセットに対する双方向変換モデル(BERT)の微調整と訓練の効果を個別に検討することを目的とする。
論文 参考訳(メタデータ) (2021-02-09T04:58:18Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。