論文の概要: Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages
- arxiv url: http://arxiv.org/abs/2506.09992v1
- Date: Wed, 11 Jun 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.193672
- Title: Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages
- Title(参考訳): 低資源バルカン語における有害言語検出のための大規模言語モデル
- Authors: Amel Muminovic, Amela Kadric Muminovic,
- Abstract要約: 本研究では,セルビア語,クロアチア語,ボスニア語における有毒なコメントをラベル付きデータで処理する大規模言語モデルについて検討した。
YouTubeとTikTokのコメントのデータセットを、さまざまなカテゴリーのビデオから作成し、手動でラベル付けしました。
4つのモデル(GPT-3.5 Turbo, GPT-4.1, Gemini 1.5 Pro, Claude 3 Opus)がゼロショットとコンテキスト拡張の2つのモードで試験された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online toxic language causes real harm, especially in regions with limited moderation tools. In this study, we evaluate how large language models handle toxic comments in Serbian, Croatian, and Bosnian, languages with limited labeled data. We built and manually labeled a dataset of 4,500 YouTube and TikTok comments drawn from videos across diverse categories, including music, politics, sports, modeling, influencer content, discussions of sexism, and general topics. Four models (GPT-3.5 Turbo, GPT-4.1, Gemini 1.5 Pro, and Claude 3 Opus) were tested in two modes: zero-shot and context-augmented. We measured precision, recall, F1 score, accuracy and false positive rates. Including a short context snippet raised recall by about 0.12 on average and improved F1 score by up to 0.10, though it sometimes increased false positives. The best balance came from Gemini in context-augmented mode, reaching an F1 score of 0.82 and accuracy of 0.82, while zero-shot GPT-4.1 led on precision and had the lowest false alarms. We show how adding minimal context can improve toxic language detection in low-resource settings and suggest practical strategies such as improved prompt design and threshold calibration. These results show that prompt design alone can yield meaningful gains in toxicity detection for underserved Balkan language communities.
- Abstract(参考訳): オンラインの有害言語は、特に限定的なモデレーションツールを持つ地域では、深刻な害を引き起こす。
本研究では,セルビア語,クロアチア語,ボスニア語における有毒なコメントを扱う言語モデルについて検討した。
音楽、政治、スポーツ、モデリング、インフルエンサーコンテンツ、性差別に関する議論、一般トピックなど、さまざまなカテゴリーの動画から得られた4500件のYouTubeとTikTokコメントのデータセットを手作業で作成した。
4つのモデル(GPT-3.5 Turbo, GPT-4.1, Gemini 1.5 Pro, Claude 3 Opus)がゼロショットとコンテキスト拡張の2つのモードで試験された。
精度,リコール,F1スコア,精度,偽陽性率を測定した。
短いコンテキストスニペットを含めると、平均で約0.12のリコールが行われ、F1スコアは最大0.10まで改善されたが、時に偽陽性が増加した。
最高のバランスは、文脈拡張モードでのジェミニからのもので、F1スコアは0.82で精度は0.82で、ゼロショットのGPT-4.1は精度が向上し、誤警報が最低であった。
最小限のコンテキストを追加することで、低リソース環境での有害な言語検出が改善できることを示し、プロンプト設計やしきい値校正の改善といった実践的戦略を提案する。
これらの結果から, バルカン語コミュニティにおいて, 素早い設計だけで有意な毒性検出が可能であることが示唆された。
関連論文リスト
- Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments [0.0]
本研究は,OpenAI GPT-4.1, Google Gemini 1.5 Pro, Anthropic Claude 3 Opusの3つの主要な言語モデルを,5,080コメントのコーパスでベンチマークする。
YouTubeのデータセットは、英語、アラビア語、インドネシア語で1,334件の有害メッセージと3,746件の有害メッセージで構成されている。
論文 参考訳(メタデータ) (2025-05-25T01:28:30Z) - HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X [0.0]
マクロF1スコアを用いた分類モデルの性能評価を行った。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
論文 参考訳(メタデータ) (2024-11-14T06:20:21Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。