論文の概要: MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages
- arxiv url: http://arxiv.org/abs/2404.02037v1
- Date: Tue, 2 Apr 2024 15:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:49:32.008279
- Title: MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages
- Title(参考訳): MultiParaDetox: 並列データによるテキストデトックスを新しい言語に拡張
- Authors: Daryna Dementieva, Nikolay Babakov, Alexander Panchenko,
- Abstract要約: テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
- 参考スコア(独自算出の注目度): 71.50809576484288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text detoxification is a textual style transfer (TST) task where a text is paraphrased from a toxic surface form, e.g. featuring rude words, to the neutral register. Recently, text detoxification methods found their applications in various task such as detoxification of Large Language Models (LLMs) (Leong et al., 2023; He et al., 2024; Tang et al., 2023) and toxic speech combating in social networks (Deng et al., 2023; Mun et al., 2023; Agarwal et al., 2023). All these applications are extremely important to ensure safe communication in modern digital worlds. However, the previous approaches for parallel text detoxification corpora collection -- ParaDetox (Logacheva et al., 2022) and APPADIA (Atwell et al., 2022) -- were explored only in monolingual setup. In this work, we aim to extend ParaDetox pipeline to multiple languages presenting MultiParaDetox to automate parallel detoxification corpus collection for potentially any language. Then, we experiment with different text detoxification models -- from unsupervised baselines to LLMs and fine-tuned models on the presented parallel corpora -- showing the great benefit of parallel corpus presence to obtain state-of-the-art text detoxification models for any language.
- Abstract(参考訳): テキストデトックス化(英: text detoxification)とは、テキストが有害な表面形態から中性レジスタへパラフレーズされるテキストスタイル転送(TST)タスクである。
近年では、Long et al , 2023; He et al , 2024; Tang et al , 2023; Mun et al , 2023; Agarwal et al , 2023) などの大規模言語モデル(LLMs)の解毒法や、ソーシャルネットワークにおける有毒な会話(Deng et al , 2023; Mun et al , 2023; Agarwal et al , 2023)など、様々なタスクに応用されている。
これらのアプリケーションは、現代のデジタル世界で安全なコミュニケーションを確保するために非常に重要である。
しかし,ParaDetox(Logacheva et al ,2022)とAPPADIA(Atwell et al ,2022)の並列テキストデトキシフィケーションコーパスコレクションに対する従来のアプローチは,単言語設定でのみ検討された。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
次に, 教師なしベースラインからLLM, 提案した並列コーパス上での微調整モデルに至るまで, さまざまなテキストデトックス化モデルを実験し, 並列コーパスの存在の優れた利点を示し, 任意の言語に対して最先端のテキストデトックス化モデルを得る。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - Text Detoxification as Style Transfer in English and Hindi [1.183205689022649]
本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:30:41Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - Exploring Cross-lingual Textual Style Transfer with Large Multilingual
Language Models [78.12943085697283]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。
本研究は,多言語および多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文 参考訳(メタデータ) (2022-06-05T20:02:30Z) - Russian Texts Detoxification with Levenshtein Editing [0.0]
パラレルコーパスを用いた2段階タギングに基づくデトキシ化モデルを構築した。
RUSSE Detox共有タスクにおける全てのモデル間で最高のスタイル転送精度を達成し、より大きなシーケンス・ツー・シーケンスモデルを上回った。
論文 参考訳(メタデータ) (2022-04-28T16:58:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。