論文の概要: Text Detoxification as Style Transfer in English and Hindi
- arxiv url: http://arxiv.org/abs/2402.07767v2
- Date: Sun, 9 Jun 2024 18:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:43:22.580567
- Title: Text Detoxification as Style Transfer in English and Hindi
- Title(参考訳): 英語とヒンディー語におけるスタイル伝達としてのテキストのデトックス化
- Authors: Sourabrata Mukherjee, Akanksha Bansal, Atul Kr. Ojha, John P. McCrae, Ondřej Dušek,
- Abstract要約: 本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
- 参考スコア(独自算出の注目度): 1.183205689022649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on text detoxification, i.e., automatically converting toxic text into non-toxic text. This task contributes to safer and more respectful online communication and can be considered a Text Style Transfer (TST) task, where the text style changes while its content is preserved. We present three approaches: knowledge transfer from a similar task, multi-task learning approach, combining sequence-to-sequence modeling with various toxicity classification tasks, and delete and reconstruct approach. To support our research, we utilize a dataset provided by Dementieva et al.(2021), which contains multiple versions of detoxified texts corresponding to toxic texts. In our experiments, we selected the best variants through expert human annotators, creating a dataset where each toxic sentence is paired with a single, appropriate detoxified version. Additionally, we introduced a small Hindi parallel dataset, aligning with a part of the English dataset, suitable for evaluation purposes. Our results demonstrate that our approach effectively balances text detoxication while preserving the actual content and maintaining fluency.
- Abstract(参考訳): 本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
このタスクは、より安全でより尊敬されるオンラインコミュニケーションに寄与し、テキストスタイルの保存中にテキストスタイルが変化するテキストスタイル転送(TST)タスクと見なすことができる。
我々は,類似タスクからの知識伝達,マルチタスク学習アプローチ,シーケンス・ツー・シーケンス・モデリングと各種毒性分類タスクの併用,および削除・再構成アプローチの3つのアプローチを提案する。
本研究を支援するために,Dementieva et al (2021) が提供したデータセットを用いて,有毒テキストに対応する複数バージョンの解毒テキストを含む。
実験では、専門家のアノテータを通して最適な変種を選択し、有害な文章を1つの適切なデトックス化バージョンと組み合わせたデータセットを作成しました。
さらに、評価目的に適した英語データセットの一部と整合した、小さなヒンディー語の並列データセットも導入しました。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
関連論文リスト
- Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - DiffuDetox: A Mixed Diffusion Model for Text Detoxification [12.014080113339178]
テキストデトックス化は、有害なテキストから攻撃的コンテンツを取り除くことを目的とした条件付きテキスト生成タスクである。
テキストデトックス化のための混合条件と非条件拡散モデルであるDiffuDetoxを提案する。
論文 参考訳(メタデータ) (2023-06-14T13:41:23Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z) - Russian Texts Detoxification with Levenshtein Editing [0.0]
パラレルコーパスを用いた2段階タギングに基づくデトキシ化モデルを構築した。
RUSSE Detox共有タスクにおける全てのモデル間で最高のスタイル転送精度を達成し、より大きなシーケンス・ツー・シーケンスモデルを上回った。
論文 参考訳(メタデータ) (2022-04-28T16:58:17Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。