論文の概要: PSK@EEUCA 2026: Fine-Tuning Large Language Models with Synthetic Data Augmentation for Multi-Class Toxicity Detection in Gaming Chat
- arxiv url: http://arxiv.org/abs/2605.07201v1
- Date: Fri, 08 May 2026 03:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.782072
- Title: PSK@EEUCA 2026: Fine-Tuning Large Language Models with Synthetic Data Augmentation for Multi-Class Toxicity Detection in Gaming Chat
- Title(参考訳): PSK@EEUCA 2026: ゲームチャットにおけるマルチクラス毒性検出のための合成データ拡張付き微調整大言語モデル
- Authors: Srikar Kashyap Pulipaka,
- Abstract要約: 本稿では,ゲームコミュニティにおける有害行動理解のためのEEUCA 2026共有タスクについて述べる。
このタスクは、World of Tanksのチャットメッセージを、非毒性、侮辱/フラーミング、その他の攻撃、ヘイト/ハラスメント、脅威、過激主義の6つの毒性カテゴリに分類する。
本稿では,エンコーダベースモデル,LoRAファインチューニングによる命令調整 LLM ,階層分類,ワン・vs-rest 戦略,各種アンサンブル手法など,さまざまなアプローチについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our system for the EEUCA 2026 Shared Task on Understanding Toxic Behavior in Gaming Communities. The task involves classifying World of Tanks chat messages into six toxicity categories: Non-toxic, Insults/Flaming, Other Offensive, Hate/Harassment, Threats, and Extremism. We explore multiple approaches including encoder-based models, instruction-tuned LLMs with LoRA fine-tuning, hierarchical classification, one-vs-rest strategies, and various ensemble methods. Our best system combines Llama 3.1 8B with carefully calibrated 5\% synthetic data augmentation, achieving an F1-macro score of 0.6234 on the test set, placing 4th out of 35 participating teams. We provide extensive analysis of the dataset's annotation patterns and their impact on model generalization, revealing a critical ''validation trap'' phenomenon where high validation performance correlates with poor test transfer.
- Abstract(参考訳): 本稿では,ゲームコミュニティにおける有害行動理解のためのEEUCA 2026共有タスクについて述べる。
このタスクは、World of Tanksのチャットメッセージを、非毒性、侮辱/フラーミング、その他の攻撃、ヘイト/ハラスメント、脅威、過激主義の6つの毒性カテゴリに分類する。
本稿では,エンコーダベースモデル,LoRAファインチューニングによる命令調整 LLM ,階層分類,ワン・vs-rest 戦略,各種アンサンブル手法など,さまざまなアプローチについて検討する。
我々のベストシステムは、Llama 3.1 8Bと慎重に校正された5\%の合成データ拡張を組み合わせることで、テストセットでF1マクロスコア0.6234を獲得し、35チーム中4位にランク付けしました。
我々は,データセットのアノテーションパターンとそのモデル一般化への影響を広範囲に分析し,高い検証性能とテスト転送不良が相関する重要な「バリデーショントラップ」現象を明らかにした。
関連論文リスト
- ToxiShield: Promoting Inclusive Developer Communication through Real-Time Toxicity Filtering [1.9500886760872191]
ToxiShieldは、3つのモジュールを使って構築されたGitHubプルリクエスト用のブラウザエクステンションである。
Toxicity Filter -- テキストが有害かどうかを特定するために、コミュニケーションコーチ -- は、ジャストインタイムのきめ細かい毒性分類を促進する。
私たちは、各モジュールに最適な選択を特定するために、複数のディープラーニングと大規模言語モデルを訓練し、評価しました。
論文 参考訳(メタデータ) (2026-04-15T20:46:40Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span
Detection using Attention-based, Named Entity Recognition, and Ensemble
Models [6.562256987706127]
本稿では,有害なスパン検出に関するSemEval-2021共有タスク5における,我々のチーム,UTNLP,方法論と結果について述べる。
実験はキーワードベースのモデルから始まり、アテンションベース、名前付きエンティティベース、トランスフォーマーベース、アンサンブルモデルが続く。
私たちの最良のアプローチ、アンサンブルモデルは、競争の評価段階で0.684のF1を達成します。
論文 参考訳(メタデータ) (2021-04-10T13:56:03Z) - Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech
Using BERToxic [2.4815579733050153]
本稿では, 有害スパン検出問題に対するアプローチについて述べる。
BERToxicは、事前に訓練されたBERTモデルを微調整して、与えられたテキスト中の有毒なテキストスパンを見つけるシステムである。
我々のシステムは、提供されたベースラインを著しく上回り、f1-score 0.683を達成し、91チーム中17位にlone pineを配置した。
論文 参考訳(メタデータ) (2021-04-08T04:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。