論文の概要: Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification
- arxiv url: http://arxiv.org/abs/2311.13937v1
- Date: Thu, 23 Nov 2023 11:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:53:57.857501
- Title: Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification
- Title(参考訳): 言語間テキストスタイル転送のための探索法:テキストデトックス化の場合
- Authors: Daryna Dementieva, Daniil Moskovskiy, David Dale and Alexander
Panchenko
- Abstract要約: テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
- 参考スコア(独自算出の注目度): 77.45995868988301
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text detoxification is the task of transferring the style of text from toxic
to neutral. While here are approaches yielding promising results in monolingual
setup, e.g., (Dale et al., 2021; Hallinan et al., 2022), cross-lingual transfer
for this task remains a challenging open problem (Moskovskiy et al., 2022). In
this work, we present a large-scale study of strategies for cross-lingual text
detoxification -- given a parallel detoxification corpus for one language; the
goal is to transfer detoxification ability to another language for which we do
not have such a corpus. Moreover, we are the first to explore a new task where
text translation and detoxification are performed simultaneously, providing
several strong baselines for this task. Finally, we introduce new automatic
detoxification evaluation metrics with higher correlations with human judgments
than previous benchmarks. We assess the most promising approaches also with
manual markup, determining the answer for the best strategy to transfer the
knowledge of text detoxification between languages.
- Abstract(参考訳): テキストデトックス化(text detoxification)は、テキストのスタイルを有害から中立に移す作業である。
例えば(Dale et al., 2021; Hallinan et al., 2022)、単言語的なセットアップにおいて有望な結果をもたらすアプローチがあるが、このタスクに対する言語間移動は難しい問題のままである(Moskovskiy et al., 2022)。
本研究では,ある言語に対して平行なデトックス化コーパスを与えられた言語間テキストのデトックス化戦略を大規模に検討し,その目的は,そのようなコーパスを持たない他の言語にデトックス化能力を伝達することである。
さらに,テキスト翻訳と非翻訳を同時に行う新しいタスクを初めて検討し,このタスクに強力なベースラインをいくつか提供した。
最後に,従来のベンチマークよりも高い相関率を持つ新しい自動解毒評価指標を提案する。
手動のマークアップによる最も有望なアプローチの評価を行い、言語間でテキストデトキシフィケーションの知識を伝達する最善の戦略の答えを決定する。
関連論文リスト
- SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Text Detoxification as Style Transfer in English and Hindi [1.183205689022649]
本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:30:41Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Exploring Cross-lingual Textual Style Transfer with Large Multilingual
Language Models [78.12943085697283]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。
本研究は,多言語および多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文 参考訳(メタデータ) (2022-06-05T20:02:30Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。