論文の概要: Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement
- arxiv url: http://arxiv.org/abs/2507.07640v1
- Date: Thu, 10 Jul 2025 11:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.370058
- Title: Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement
- Title(参考訳): 発音の喪失:音素のクローキング置換で識別された中国語の攻撃的言語
- Authors: Haotan Guo, Jianfei He, Jiayuan Ma, Hongbin Na, Zimu Wang, Haiyang Zhang, Qi Chen, Wei Wang, Zijing Shi, Tao Shen, Ling Chen,
- Abstract要約: PCR(Phontic Cloaking Replacement)は、中国のコンテンツモデレーションにとって大きな障害となっている。
この研究は、現在の検出器の限界を示す現実的なベンチマークである、中国のPCRの包括的な分類を初めて提供する。
- 参考スコア(独自算出の注目度): 22.110092085319693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phonetic Cloaking Replacement (PCR), defined as the deliberate use of homophonic or near-homophonic variants to hide toxic intent, has become a major obstacle to Chinese content moderation. While this problem is well-recognized, existing evaluations predominantly rely on rule-based, synthetic perturbations that ignore the creativity of real users. We organize PCR into a four-way surface-form taxonomy and compile \ours, a dataset of 500 naturally occurring, phonetically cloaked offensive posts gathered from the RedNote platform. Benchmarking state-of-the-art LLMs on this dataset exposes a serious weakness: the best model reaches only an F1-score of 0.672, and zero-shot chain-of-thought prompting pushes performance even lower. Guided by error analysis, we revisit a Pinyin-based prompting strategy that earlier studies judged ineffective and show that it recovers much of the lost accuracy. This study offers the first comprehensive taxonomy of Chinese PCR, a realistic benchmark that reveals current detectors' limits, and a lightweight mitigation technique that advances research on robust toxicity detection.
- Abstract(参考訳): 有毒な意図を隠すためにホモフォニックまたは近ホモフォニックな変種を意図的に用いていると定義されたPCRは、中国のコンテンツモデレーションにとって大きな障害となっている。
この問題はよく認識されているが、既存の評価は主に、実際のユーザの創造性を無視する規則に基づく合成摂動に依存している。
我々は、PCRを4方向の表層分類に分類し、レッドノートプラットフォームから収集された500の自然発生の攻撃的ポストのデータセットである \ours をコンパイルする。
最高のモデルはF1スコアの0.672にしか達せず、ゼロショットチェーンはパフォーマンスをさらに低下させる。
エラー解析によって導かれたPinyinベースのプロンプト戦略は、以前の研究では効果が低いと判断され、失われた精度の多くを回復することを示した。
この研究は、中国のPCRの包括的分類法、現在の検出器の限界を明らかにする現実的なベンチマーク、および堅牢な毒性検出の研究を前進させる軽量な緩和技術を提供する。
関連論文リスト
- Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。