論文の概要: KOTOX: A Korean Toxic Dataset for Deobfuscation and Detoxification
- arxiv url: http://arxiv.org/abs/2510.10961v1
- Date: Mon, 13 Oct 2025 03:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.173331
- Title: KOTOX: A Korean Toxic Dataset for Deobfuscation and Detoxification
- Title(参考訳): KOTOX: 脱臭・脱毒のための韓国の毒性データセット
- Authors: Yejin Lee, Su-Hyeon Kim, Hyundong Jin, Dayoung Kim, Yeonsoo Kim, Yo-Sub Han,
- Abstract要約: オンラインコミュニケーションの急速な拡大に伴い、有害コンテンツは社会問題としてますます重要になっている。
LLM(Large Language Models)は、低リソース言語における有害な表現の識別と中和に苦慮することが多い。
我々は,脱臭・脱毒のための韓国毒素データセットtextbfKOTOXを提案する。
- 参考スコア(独自算出の注目度): 10.162525778332915
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Toxic content has become an increasingly critical social issue with the rapid expansion of online communication. While numerous studies explored methods for detecting and detoxifying such content, most have focused primarily on English, leaving low-resource language underrepresented. Consequently, Large Language Models~(LLMs) often struggle to identify and neutralize toxic expressions in these languages. This challenge becomes even more pronounced when user employ obfuscation techniques to evade detection systems. Therefore, we propose a \textbf{KOTOX: Korean Toxic Dataset} for deobfuscation and detoxicification to address this issue. We categorize various obfuscation approaches based on linguistic characteristics of Korean and define a set of transformation rules grounded in real-word examples. Using these rules, we construct three dataset versions (easy, normal, and hard) representing different levels of obfuscation difficulty. This is the first dataset that simultaneously supports deobfuscation and detoxification for the Korean language. We expect it to facilitate better understanding and mitigating of obfuscated toxic content in LLM for low-resource languages. Our code and data are available at https://github.com/leeyejin1231/KOTOX.
- Abstract(参考訳): オンラインコミュニケーションの急速な拡大に伴い、有害コンテンツは社会問題としてますます重要になっている。
多くの研究がそのようなコンテンツを検出・解毒する方法を研究しているが、そのほとんどは英語に焦点を絞っており、低リソース言語が不足している。
その結果、Large Language Models~(LLM)は、これらの言語で有毒な表現を識別し、中和するのにしばしば苦労する。
この課題は、ユーザが検出システムを回避するために難読化技術を使用すると、さらに顕著になる。
そこで本研究では, この問題に対処するために, 脱臭・脱毒のための<textbf{KOTOX: Korean Toxic Dataset}を提案する。
韓国語の言語的特徴に基づいて,様々な難読化アプローチを分類し,実語例に基づく変換規則のセットを定義する。
これらのルールを用いて、難易度が異なるレベルの難易度を表す3つのデータセットバージョン(易易度、正常度、硬度)を構築した。
これは韓国語の難読化と解毒を同時にサポートする最初のデータセットである。
低リソース言語用LLMにおける難燃性有害コンテンツの理解と緩和を容易にすることが期待されている。
私たちのコードとデータはhttps://github.com/leeyejin1231/KOTOX.comで公開されています。
関連論文リスト
- Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - Breaking the Cloak! Unveiling Chinese Cloaked Toxicity with Homophone Graph and Toxic Lexicon [10.538492229433409]
ソーシャルメディアプラットフォームは、虐待的な言葉や差別的な発言など、有毒なコンテンツの著しい増加を経験している。
既存の方法はほとんどが英語のテキスト用に設計されているが、中国のクロークによる毒性の暴露はまだ解決されていない。
C$2$TUは,中国における有毒物公開のための新規なトレーニングフリーかつプロンプトフリーな方法である。
論文 参考訳(メタデータ) (2025-05-28T09:58:15Z) - From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models [10.807067327137855]
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。
言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。
これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
論文 参考訳(メタデータ) (2024-03-06T17:51:43Z) - Exploring Cross-lingual Textual Style Transfer with Large Multilingual
Language Models [78.12943085697283]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。
本研究は,多言語および多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文 参考訳(メタデータ) (2022-06-05T20:02:30Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。