論文の概要: Text Detoxification in isiXhosa and Yorùbá: A Cross-Lingual Machine Learning Approach for Low-Resource African Languages
- arxiv url: http://arxiv.org/abs/2601.05624v1
- Date: Fri, 09 Jan 2026 08:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.912617
- Title: Text Detoxification in isiXhosa and Yorùbá: A Cross-Lingual Machine Learning Approach for Low-Resource African Languages
- Title(参考訳): IsiXhosa と Yor'bá のテキストデトックス化:低資源アフリカの言語に対する言語間機械学習アプローチ
- Authors: Abayomi O. Agbeyangi,
- Abstract要約: Toxic Languageは、安全なオンライン参加のための大きな障壁の1つだが、アフリカ言語では堅牢な緩和ツールが不足している。
本研究は,2つの低資源アフリカ言語isiXhosaとYorbの自動テキストデトックス化(中和に有害な)について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic language is one of the major barrier to safe online participation, yet robust mitigation tools are scarce for African languages. This study addresses this critical gap by investigating automatic text detoxification (toxic to neutral rewriting) for two low-resource African languages, isiXhosa and Yorùbá. The work contributes a novel, pragmatic hybrid methodology: a lightweight, interpretable TF-IDF and Logistic Regression model for transparent toxicity detection, and a controlled lexicon- and token-guided rewriting component. A parallel corpus of toxic to neutral rewrites, which captures idiomatic usage, diacritics, and code switching, was developed to train and evaluate the model. The detection component achieved stratified K-fold accuracies of 61-72% (isiXhosa) and 72-86% (Yorùbá), with per-language ROC-AUCs up to 0.88. The rewriting component successfully detoxified all detected toxic sentences while preserving 100% of non-toxic sentences. These results demonstrate that scalable, interpretable machine learning detectors combined with rule-based edits offer a competitive and resource-efficient solution for culturally adaptive safety tooling, setting a new benchmark for low-resource Text Style Transfer (TST) in African languages.
- Abstract(参考訳): Toxic Languageは、安全なオンライン参加のための大きな障壁の1つだが、アフリカ言語では堅牢な緩和ツールが不足している。
本研究は,2つの低資源アフリカの言語,isiXhosa と Yor'bá の自動テキストデトックス化(中性書き換えに有害な)を調査することによって,この重要なギャップに対処する。
この研究は、透明毒性検出のための軽量で解釈可能なTF-IDFとロジスティック回帰モデル、および制御されたレキシコンおよびトークン誘導リライトコンポーネントという、新しい実用的ハイブリッド手法に貢献している。
慣用的使用、ダイアクリティカルティクス、コードスイッチングをキャプチャし、中立的な書き直しに有害な並列コーパスを開発し、モデルを訓練し評価した。
検出成分は61-72% (isiXhosa) と72-86% (Yorabá) の層状化K倍率で、言語ごとのROC-AUCは0.88である。
書き換え成分は、検出された有毒な文章の100%を保存しながら、検出された全ての有毒な文章を解毒することに成功した。
これらの結果は、スケーラブルで解釈可能な機械学習検出器とルールベースの編集を組み合わせることで、文化的適応型安全ツールのための競合的でリソース効率の高いソリューションが提供され、アフリカの言語における低リソースのテキストスタイル転送(TST)のための新しいベンチマークが設定されたことを示している。
関連論文リスト
- ylmmcl at Multilingual Text Detoxification 2025: Lexicon-Guided Detoxification and Classifier-Gated Rewriting [0.0]
そこで,本研究では,Lilmmcl チームを対象とした PAN-2025 コンペティションにおける多言語テキストデトキシフィケーションタスクのソリューションについて紹介する。
提案手法は,多言語_toxic_lexiconによる明示的な有毒な単語アノテーションを活用することで,教師なしパイプラインやモノリンガルパイプラインから逸脱する。
我々のモデルは, これまでの試行から最も高いSTA(0.922)を達成し, 開発およびテストセットの双方において, 有毒な入力に対する平均 J スコア0.612 を達成した。
論文 参考訳(メタデータ) (2025-07-24T19:38:15Z) - Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。
我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。
本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文 参考訳(メタデータ) (2025-07-21T12:38:07Z) - Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification [39.711527571739666]
クロス・リンガル・デトキシフィケーション(Cross-lingual Detoxification)は、大規模言語モデルにおいて毒性を緩和するパラダイムである。
本研究では, クロスディストリビューション設定における毒性低下を解析し, 非有害タスクに対するモデル性能への影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T14:30:14Z) - Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。
本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。
そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文 参考訳(メタデータ) (2024-12-16T12:08:59Z) - Toxicity Classification in Ukrainian [11.847477933042777]
ラベル付きバイナリ毒性分類コーパスは、アノテーションプロセスのリソース集約性を考えると、すべての言語で利用できない。
本研究では,英語コーパスからの翻訳,キーワードを用いた有毒なサンプルのフィルタリング,クラウドソーシングによる注釈付けなどにより,言語間知識伝達技術を調査し,ラベル付きコーパスを作成することにより,このギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-04-27T09:20:13Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。