論文の概要: Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments
- arxiv url: http://arxiv.org/abs/2505.18927v3
- Date: Sun, 01 Jun 2025 01:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:29.968441
- Title: Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments
- Title(参考訳): モデレーションのハーム:YouTubeコメントにおけるサイバーいじめ検出のための大規模言語モデルのベンチマーク
- Authors: Amel Muminovic,
- Abstract要約: 本研究は,OpenAI GPT-4.1, Google Gemini 1.5 Pro, Anthropic Claude 3 Opusの3つの主要な言語モデルを,5,080コメントのコーパスでベンチマークする。
YouTubeのデータセットは、英語、アラビア語、インドネシア語で1,334件の有害メッセージと3,746件の有害メッセージで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As online platforms grow, comment sections increasingly host harassment that undermines user experience and well-being. This study benchmarks three leading large language models, OpenAI GPT-4.1, Google Gemini 1.5 Pro, and Anthropic Claude 3 Opus, on a corpus of 5,080 YouTube comments sampled from high-abuse threads in gaming, lifestyle, food vlog, and music channels. The dataset comprises 1,334 harmful and 3,746 non-harmful messages in English, Arabic, and Indonesian, annotated independently by two reviewers with substantial agreement (Cohen's kappa = 0.83). Using a unified prompt and deterministic settings, GPT-4.1 achieved the best overall balance with an F1 score of 0.863, precision of 0.887, and recall of 0.841. Gemini flagged the highest share of harmful posts (recall = 0.875) but its precision fell to 0.767 due to frequent false positives. Claude delivered the highest precision at 0.920 and the lowest false-positive rate of 0.022, yet its recall dropped to 0.720. Qualitative analysis showed that all three models struggle with sarcasm, coded insults, and mixed-language slang. These results underscore the need for moderation pipelines that combine complementary models, incorporate conversational context, and fine-tune for under-represented languages and implicit abuse. A de-identified version of the dataset and full prompts is publicly released to promote reproducibility and further progress in automated content moderation.
- Abstract(参考訳): オンラインプラットフォームが成長するにつれ、コメント欄はユーザー体験や幸福を損なう嫌がらせをますます受けている。
この研究は、ゲーム、ライフスタイル、フードログ、音楽チャンネルの高使用率スレッドからサンプリングされた5,080のYouTubeコメントのコーパスで、OpenAI GPT-4.1、Google Gemini 1.5 Pro、Anthhropic Claude 3 Opusの3つの主要な言語モデルをベンチマークする。
データセットは、英語、アラビア語、インドネシア語で1,334件の有害メッセージと3,746件の非有害メッセージで構成され、相当な合意(コーエンのkaappa = 0.83)を持つ2人のレビュアーによって独立に注釈付けされている。
統一的なプロンプトと決定論的設定を用いて、GPT-4.1はF1スコア0.863、精度0.887、リコール0.841で最高の総合バランスを達成した。
ジェミニは有害なポストの最大シェア(リコール=0.875)を掲げたが、偽陽性が頻発したため精度は0.767に低下した。
クロードの精度は0.920で、偽陽性率は0.022だったが、リコールは0.720に低下した。
質的な分析により、3つのモデル全てがサルカズム、コード化された侮辱、混合言語スラングに苦しむことが明らかとなった。
これらの結果は、補完的なモデルを組み合わせたモデレーションパイプラインの必要性、会話コンテキストの導入、表現不足の言語に対する微調整、暗黙の虐待の必要性を浮き彫りにしている。
データセットの特定されていないバージョンとフルプロンプトが公開され、再現性と自動コンテンツモデレーションのさらなる進歩を促進する。
関連論文リスト
- Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X [0.0]
マクロF1スコアを用いた分類モデルの性能評価を行った。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
論文 参考訳(メタデータ) (2024-11-14T06:20:21Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Explainable and High-Performance Hate and Offensive Speech Detection [5.2128938453601155]
我々は、Twitterデータに基づいてトレーニングされたXGBoostアルゴリズムに基づいて、説明可能かつ解釈可能なハイパフォーマンスモデルを構築した。
バランスの取れないTwitterデータに対して、XGboostはヘイトスピーチ検出におけるLSTM、AutoGluon、ULMFiTモデルよりも優れていた。
XGBoostはLSTM、AutoGluon、ULMFiTよりも、攻撃的な音声検出のためのダウンサンプルバージョンで性能が向上した。
論文 参考訳(メタデータ) (2022-06-26T22:02:53Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。