論文の概要: Breaking the Cloak! Unveiling Chinese Cloaked Toxicity with Homophone Graph and Toxic Lexicon
- arxiv url: http://arxiv.org/abs/2505.22184v1
- Date: Wed, 28 May 2025 09:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.543718
- Title: Breaking the Cloak! Unveiling Chinese Cloaked Toxicity with Homophone Graph and Toxic Lexicon
- Title(参考訳): クラックを破る! ホモフォングラフとトキシックレキシコンで中国のクロックされた毒性を暴露する
- Authors: Xuchen Ma, Jianxiang Yu, Wenming Shao, Bo Pang, Xiang Li,
- Abstract要約: ソーシャルメディアプラットフォームは、虐待的な言葉や差別的な発言など、有毒なコンテンツの著しい増加を経験している。
既存の方法はほとんどが英語のテキスト用に設計されているが、中国のクロークによる毒性の暴露はまだ解決されていない。
C$2$TUは,中国における有毒物公開のための新規なトレーニングフリーかつプロンプトフリーな方法である。
- 参考スコア(独自算出の注目度): 10.538492229433409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms have experienced a significant rise in toxic content, including abusive language and discriminatory remarks, presenting growing challenges for content moderation. Some users evade censorship by deliberately disguising toxic words through homophonic cloak, which necessitates the task of unveiling cloaked toxicity. Existing methods are mostly designed for English texts, while Chinese cloaked toxicity unveiling has not been solved yet. To tackle the issue, we propose C$^2$TU, a novel training-free and prompt-free method for Chinese cloaked toxic content unveiling. It first employs substring matching to identify candidate toxic words based on Chinese homo-graph and toxic lexicon. Then it filters those candidates that are non-toxic and corrects cloaks to be their corresponding toxicities. Specifically, we develop two model variants for filtering, which are based on BERT and LLMs, respectively. For LLMs, we address the auto-regressive limitation in computing word occurrence probability and utilize the full semantic contexts of a text sequence to reveal cloaked toxic words. Extensive experiments demonstrate that C$^2$TU can achieve superior performance on two Chinese toxic datasets. In particular, our method outperforms the best competitor by up to 71% on the F1 score and 35% on accuracy, respectively.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、乱用言語や差別的発言など、有害なコンテンツの著しい増加を経験しており、コンテンツモデレーションの課題が増えている。
一部のユーザーは、ホモフォニック・クロークを通じて有毒な単語を意図的に解き放つことによって検閲を回避する。
既存の方法はほとんどが英語のテキスト用に設計されているが、中国のクロークによる毒性の暴露はまだ解決されていない。
この問題に対処するため,中国における新規な無訓練・即時無害な有毒物公開法であるC$^2$TUを提案する。
まず、中国語のホモグラフと有毒レキシコンに基づく候補有害単語の同定にサブストリングマッチングを用いる。
そして、非毒性の候補をフィルターし、クロークが対応する毒性であるように修正する。
具体的には,BERT と LLM を基本とした2種類のフィルタリングモデルを構築した。
LLMでは、単語発生確率の自己回帰的制限に対処し、テキストシーケンスの完全な意味的コンテキストを利用して、クロークされた有毒な単語を明らかにする。
大規模な実験により、C$^2$TUは2つの中国有毒なデータセット上で優れた性能を発揮することが示された。
特に,F1スコアでは最大71%,精度では35%で最良競争率を上回った。
関連論文リスト
- Chinese Toxic Language Mitigation via Sentiment Polarity Consistent Rewrites [39.3555146467512]
ToxiRewriteCNは、感情極性を維持するために明示的に設計された最初の中国のデータセットである。
1,556個の注釈付き三つ子からなり、それぞれに有毒な文、無害な非有毒な書き直し、ラベル付き有毒なスパンを含む。
標準的な表現、絵文字誘発、ホモフォニックな毒性、シングルターンとマルチターンの対話の5つの現実シナリオをカバーしている。
論文 参考訳(メタデータ) (2025-05-21T09:27:18Z) - Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。
本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。
そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文 参考訳(メタデータ) (2024-12-16T12:08:59Z) - Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。
自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。
LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文 参考訳(メタデータ) (2024-06-25T14:02:11Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。