論文の概要: Multilingual and Explainable Text Detoxification with Parallel Corpora
- arxiv url: http://arxiv.org/abs/2412.11691v1
- Date: Mon, 16 Dec 2024 12:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:34.734033
- Title: Multilingual and Explainable Text Detoxification with Parallel Corpora
- Title(参考訳): 並列コーパスによる多言語・説明可能なテキストデトックス化
- Authors: Daryna Dementieva, Nikolay Babakov, Amit Ronen, Abinew Ali Ayele, Naquee Rizwan, Florian Schneider, Xintong Wang, Seid Muhie Yimam, Daniil Moskovskiy, Elisei Stakovskii, Eran Kaufman, Ashraf Elnagar, Animesh Mukherjee, Alexander Panchenko,
- Abstract要約: 並列テキストデトックス化コーパスを新しい言語に拡張する。
本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。
そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
- 参考スコア(独自算出の注目度): 58.83211571400692
- License:
- Abstract: Even with various regulations in place across countries and social media platforms (Government of India, 2021; European Parliament and Council of the European Union, 2022, digital abusive speech remains a significant issue. One potential approach to address this challenge is automatic text detoxification, a text style transfer (TST) approach that transforms toxic language into a more neutral or non-toxic form. To date, the availability of parallel corpora for the text detoxification task (Logachevavet al., 2022; Atwell et al., 2022; Dementievavet al., 2024a) has proven to be crucial for state-of-the-art approaches. With this work, we extend parallel text detoxification corpus to new languages -- German, Chinese, Arabic, Hindi, and Amharic -- testing in the extensive multilingual setup TST baselines. Next, we conduct the first of its kind an automated, explainable analysis of the descriptive features of both toxic and non-toxic sentences, diving deeply into the nuances, similarities, and differences of toxicity and detoxification across 9 languages. Finally, based on the obtained insights, we experiment with a novel text detoxification method inspired by the Chain-of-Thoughts reasoning approach, enhancing the prompting process through clustering on relevant descriptive attributes.
- Abstract(参考訳): 各国の様々な規制やソーシャルメディアプラットフォーム(2021年のインド統治、2022年の欧州議会と欧州連合理事会)においても、デジタル暴力的な演説は大きな問題となっている。
この課題に対処する潜在的アプローチの1つは、有害な言語をより中立的または非有害な形式に変換するテキストスタイル転送(TST)アプローチである、自動テキストデトックス化である。
現在までに、テキスト解毒作業のための平行コーパス(Logachevavet al , 2022; Atwell et al , 2022; Dementievavet al , 2024a)は最先端のアプローチに不可欠であることが証明されている。
この作業により、並列テキストデトキシフィケーションコーパスをドイツ語、中国語、アラビア語、ヒンディー語、アムハラ語といった新しい言語に拡張し、広範囲にわたる多言語設定TSTベースラインのテストを行います。
次に, 有害文と非毒性文の両方の記述的特徴を自動的, 説明可能な分析を行い, ニュアンス, 類似性, 毒性と解毒の差を9言語にわたって深く掘り下げた。
最後に、得られた知見に基づいて、我々はChain-of-Thoughts推論手法に触発された新しいテキストデトックス化法を実験し、関連する記述属性のクラスタリングによるプロンプトプロセスを強化する。
関連論文リスト
- SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Text Detoxification as Style Transfer in English and Hindi [1.183205689022649]
本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:30:41Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - Exploring Cross-lingual Textual Style Transfer with Large Multilingual
Language Models [78.12943085697283]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。
本研究は,多言語および多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文 参考訳(メタデータ) (2022-06-05T20:02:30Z) - Speech Toxicity Analysis: A New Spoken Language Processing Task [32.297717021285344]
ヘイトスピーチ(英: hate speech)またはヘイトスピーチ(英: hate speech)は、今日のオンラインソーシャルメディアを悩ませる重要な問題の1つである。
音声音声から有害性を検出する新しい音声言語処理タスクを提案する。
DeToxyは、様々な公開音声データベースから得られた英語音声に対する、初めて公開された毒性アノテートデータセットである。
論文 参考訳(メタデータ) (2021-10-14T17:51:04Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。