論文の概要: Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings
- arxiv url: http://arxiv.org/abs/2505.24341v1
- Date: Fri, 30 May 2025 08:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.850372
- Title: Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings
- Title(参考訳): 毒性中国検出におけるマルチモーダル課題の探索--分類学,ベンチマーク,発見
- Authors: Shujian Yang, Shiyao Cui, Chuanrui Hu, Haicheng Wang, Tianwei Zhang, Minlie Huang, Jialiang Lu, Han Qiu,
- Abstract要約: 我々は、有害な中国語検出に言語モデルをデプロイする上で重要な課題として、中国語のマルチモーダル性を強調した。
まず,3つの摂動戦略の分類法と,有毒な中国コンテンツに対する8つの具体的なアプローチを提案する。
そして、この分類に基づいてデータセットをキュレートし、9つのSOTA LLM(米国と中国)をベンチマークして、乱れた有毒な漢文を検出できるかどうかを評価する。
- 参考スコア(独自算出の注目度): 48.841514684592426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting toxic content using language models is important but challenging. While large language models (LLMs) have demonstrated strong performance in understanding Chinese, recent studies show that simple character substitutions in toxic Chinese text can easily confuse the state-of-the-art (SOTA) LLMs. In this paper, we highlight the multimodal nature of Chinese language as a key challenge for deploying LLMs in toxic Chinese detection. First, we propose a taxonomy of 3 perturbation strategies and 8 specific approaches in toxic Chinese content. Then, we curate a dataset based on this taxonomy, and benchmark 9 SOTA LLMs (from both the US and China) to assess if they can detect perturbed toxic Chinese text. Additionally, we explore cost-effective enhancement solutions like in-context learning (ICL) and supervised fine-tuning (SFT). Our results reveal two important findings. (1) LLMs are less capable of detecting perturbed multimodal Chinese toxic contents. (2) ICL or SFT with a small number of perturbed examples may cause the LLMs "overcorrect'': misidentify many normal Chinese contents as toxic.
- Abstract(参考訳): 言語モデルを用いた有害なコンテンツの検出は重要だが、難しい。
大型言語モデル (LLM) は中国語理解において高い性能を示してきたが、近年の研究により、有害な漢文における単純な文字置換は、最先端(SOTA)のLLMと容易に混同できることが示されている。
本稿では,LLMを有害な中国語検出にデプロイする上で重要な課題として,中国語のマルチモーダル性を強調した。
まず,3つの摂動戦略の分類法と,有毒な中国コンテンツに対する8つの具体的なアプローチを提案する。
そして、この分類に基づいてデータセットをキュレートし、9つのSOTA LLM(米国と中国)をベンチマークして、乱れた有毒な漢文を検出できるかどうかを評価する。
さらに,テキスト内学習 (ICL) や教師付き微調整 (SFT) などのコスト効率向上ソリューションについても検討する。
以上の結果から2つの重要な結果が得られた。
1) LLMは, 摂動性多糖性漢物の検出能力が低い。
2)少人数の摂動例を持つICLまたはSFTは,LSMを「過誤」させる可能性がある。
関連論文リスト
- Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese [52.98034458924209]
本研究では,大言語モデルが中国語の2つの変種に刺激された場合の差分性能について検討する。
実世界のシナリオを反映した2つのベンチマークタスクを設計する。
分析の結果、LLM応答のバイアスはタスクとプロンプト言語の両方に依存していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T17:56:49Z) - Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。
10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。
次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文 参考訳(メタデータ) (2024-11-17T03:53:24Z) - PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - On the (In)Effectiveness of Large Language Models for Chinese Text
Correction [44.32102000125604]
大規模言語モデル(LLM)は、人工知能コミュニティ全体を驚かせた。
本研究は,中国語のNLP課題である中国語のテキスト訂正に焦点を当てた。
LLMは、現在、中国語のテキスト訂正において、素晴らしいパフォーマンスと不満足な動作の両方を持っていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-07-18T06:48:52Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。