論文の概要: K/DA: Automated Data Generation Pipeline for Detoxifying Implicitly Offensive Language in Korean
- arxiv url: http://arxiv.org/abs/2506.13513v1
- Date: Mon, 16 Jun 2025 14:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.610271
- Title: K/DA: Automated Data Generation Pipeline for Detoxifying Implicitly Offensive Language in Korean
- Title(参考訳): K/DA:韓国の急激な攻撃的言語をデトックス化する自動データ生成パイプライン
- Authors: Minkyeong Jeon, Hyemin Jeong, Yerang Kim, Jiyoung Kim, Jae Hyeon Cho, Byung-Jun Lee,
- Abstract要約: 我々はK/DAと呼ばれる自動ペアデータ生成パイプラインを導入する。
このパイプラインは、暗黙の攻撃性とトレンドに整合したスラングで攻撃的な言語を生成するように設計されている。
我々は,K/DAが生成したデータセットが,既存の韓国のデータセットと比較して高いペア一貫性と暗黙の攻撃性を示すことを示した。
- 参考スコア(独自算出の注目度): 4.187648622335092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language detoxification involves removing toxicity from offensive language. While a neutral-toxic paired dataset provides a straightforward approach for training detoxification models, creating such datasets presents several challenges: i) the need for human annotation to build paired data, and ii) the rapid evolution of offensive terms, rendering static datasets quickly outdated. To tackle these challenges, we introduce an automated paired data generation pipeline, called K/DA. This pipeline is designed to generate offensive language with implicit offensiveness and trend-aligned slang, making the resulting dataset suitable for detoxification model training. We demonstrate that the dataset generated by K/DA exhibits high pair consistency and greater implicit offensiveness compared to existing Korean datasets, and also demonstrates applicability to other languages. Furthermore, it enables effective training of a high-performing detoxification model with simple instruction fine-tuning.
- Abstract(参考訳): 言語解毒には、攻撃的な言語から毒性を取り除くことが含まれる。
中立毒性のペアデータセットは、デトキシフィケーションモデルをトレーニングするための直接的なアプローチを提供するが、そのようなデータセットを作成するには、いくつかの課題がある。
一 対のデータを作成するための人的アノテーションの必要性、及び
二 攻撃的用語の急速な進化、静的なデータセットのレンダリングが急速に時代遅れになったこと。
これらの課題に対処するため、K/DAと呼ばれる自動ペアデータ生成パイプラインを導入しました。
このパイプラインは、暗黙の攻撃性と傾向に沿ったスラングを備えた攻撃的な言語を生成するように設計されており、結果として得られるデータセットは、解毒モデルのトレーニングに適している。
K/DAが生成したデータセットは,既存の韓国のデータセットと比較して高いペア一貫性と暗黙的な攻撃性を示し,他の言語にも適用可能であることを示す。
さらに、簡単な命令微調整による高性能な解毒モデルを効果的に訓練することができる。
関連論文リスト
- Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation [6.781972039785424]
近年のジェネレーティブ・大型言語モデル(LLM)は英語以外の言語では顕著な性能を示した。
これらの言語で刺激されると、より有害な社会的偏見と毒性のレベルを表現する傾向がある。
異なる微調整法がモデルのバイアスや毒性に与える影響について検討するが、その効果は、流動的で多様なテキストを生成する能力にも及んでいる。
論文 参考訳(メタデータ) (2024-12-18T17:05:08Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。