Fugu-MT 論文翻訳(概要): MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages

論文の概要: MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages

arxiv url: http://arxiv.org/abs/2404.02037v1
Date: Tue, 2 Apr 2024 15:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 15:49:32.008279
Title: MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages
Title（参考訳）: MultiParaDetox: 並列データによるテキストデトックスを新しい言語に拡張
Authors: Daryna Dementieva, Nikolay Babakov, Alexander Panchenko,
Abstract要約: テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
参考スコア（独自算出の注目度）: 71.50809576484288
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text detoxification is a textual style transfer (TST) task where a text is paraphrased from a toxic surface form, e.g. featuring rude words, to the neutral register. Recently, text detoxification methods found their applications in various task such as detoxification of Large Language Models (LLMs) (Leong et al., 2023; He et al., 2024; Tang et al., 2023) and toxic speech combating in social networks (Deng et al., 2023; Mun et al., 2023; Agarwal et al., 2023). All these applications are extremely important to ensure safe communication in modern digital worlds. However, the previous approaches for parallel text detoxification corpora collection -- ParaDetox (Logacheva et al., 2022) and APPADIA (Atwell et al., 2022) -- were explored only in monolingual setup. In this work, we aim to extend ParaDetox pipeline to multiple languages presenting MultiParaDetox to automate parallel detoxification corpus collection for potentially any language. Then, we experiment with different text detoxification models -- from unsupervised baselines to LLMs and fine-tuned models on the presented parallel corpora -- showing the great benefit of parallel corpus presence to obtain state-of-the-art text detoxification models for any language.
Abstract（参考訳）: テキストデトックス化(英: text detoxification)とは、テキストが有害な表面形態から中性レジスタへパラフレーズされるテキストスタイル転送(TST)タスクである。近年では、Long et al , 2023; He et al , 2024; Tang et al , 2023; Mun et al , 2023; Agarwal et al , 2023) などの大規模言語モデル(LLMs)の解毒法や、ソーシャルネットワークにおける有毒な会話(Deng et al , 2023; Mun et al , 2023; Agarwal et al , 2023)など、様々なタスクに応用されている。これらのアプリケーションは、現代のデジタル世界で安全なコミュニケーションを確保するために非常に重要である。しかし,ParaDetox(Logacheva et al ,2022)とAPPADIA(Atwell et al ,2022)の並列テキストデトキシフィケーションコーパスコレクションに対する従来のアプローチは,単言語設定でのみ検討された。本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。次に, 教師なしベースラインからLLM, 提案した並列コーパス上での微調整モデルに至るまで, さまざまなテキストデトックス化モデルを実験し, 並列コーパスの存在の優れた利点を示し, 任意の言語に対して最先端のテキストデトックス化モデルを得る。

関連論文リスト

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文参考訳（メタデータ） (2025-07-21T12:38:07Z)
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators [61.82799141938912]
既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。本稿では,手動で収集・合成した多言語並列テキストデトックス化データセットであるSynthDetoxMを紹介する。
論文参考訳（メタデータ） (2025-02-10T12:30:25Z)
Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文参考訳（メタデータ） (2024-12-16T12:08:59Z)
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。 ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文参考訳（メタデータ） (2024-10-05T13:30:33Z)
SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文参考訳（メタデータ） (2024-07-07T17:19:34Z)
Text Detoxification as Style Transfer in English and Hindi [1.183205689022649]
本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:30:41Z)
Exploring Methods for Cross-lingual Text Style Transfer: The Case of Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文参考訳（メタデータ） (2023-11-23T11:40:28Z)
Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models [78.12943085697283]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。本研究は,多言語および多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文参考訳（メタデータ） (2022-06-05T20:02:30Z)
Russian Texts Detoxification with Levenshtein Editing [0.0]
パラレルコーパスを用いた2段階タギングに基づくデトキシ化モデルを構築した。 RUSSE Detox共有タスクにおける全てのモデル間で最高のスタイル転送精度を達成し、より大きなシーケンス・ツー・シーケンスモデルを上回った。
論文参考訳（メタデータ） (2022-04-28T16:58:17Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。