論文の概要: Methods for Detoxification of Texts for the Russian Language
- arxiv url: http://arxiv.org/abs/2105.09052v1
- Date: Wed, 19 May 2021 10:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 18:03:55.829160
- Title: Methods for Detoxification of Texts for the Russian Language
- Title(参考訳): ロシア語用テキストの解毒方法
- Authors: Daryna Dementieva, Daniil Moskovskiy, Varvara Logacheva, David Dale,
Olga Kozlova, Nikita Semenov, and Alexander Panchenko
- Abstract要約: 我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
- 参考スコア(独自算出の注目度): 55.337471467610094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first study of automatic detoxification of Russian texts to
combat offensive language. Such a kind of textual style transfer can be used,
for instance, for processing toxic content in social media. While much work has
been done for the English language in this field, it has never been solved for
the Russian language yet. We test two types of models - unsupervised approach
based on BERT architecture that performs local corrections and supervised
approach based on pretrained language GPT-2 model - and compare them with
several baselines. In addition, we describe evaluation setup providing training
datasets and metrics for automatic evaluation. The results show that the tested
approaches can be successfully used for detoxification, although there is room
for improvement.
- Abstract(参考訳): 攻撃的言語と戦うために,ロシア語テキストの自動解毒に関する最初の研究を紹介する。
この種のテキストスタイルの転送は、例えばソーシャルメディアで有害なコンテンツを処理するために使用することができる。
この分野の英語については多くの研究がなされているが、ロシア語ではまだ解決されていない。
我々は,事前学習された言語 gpt-2 モデルに基づく局所的補正と教師付きアプローチを行う bert アーキテクチャに基づく教師なしアプローチと,いくつかのベースラインと比較する。
さらに,自動評価のためのトレーニングデータセットとメトリクスを提供する評価設定について述べる。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
関連論文リスト
- Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - GPT-DETOX: An In-Context Learning-Based Paraphraser for Text Detoxification [1.8295720742100332]
GPT-3.5 Turbo を用いたテキストデトキシフィケーションのためのインテキスト・インテキスト・ラーニングのためのフレームワークとして GPT-DETOX を提案する。
単語マッチング例選択(WMES)と文脈マッチング例選択(CMES)の2つの手法を提案する。
我々は、アンサンブルをゼロショットと数ショット設定によるベースプロンプトによって形作るアンサンブル・イン・コンテクスト・ラーニング(EICL)を考慮している。
論文 参考訳(メタデータ) (2024-04-03T20:35:36Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark [5.258267224004844]
先進的なロシア語理解評価ベンチマークであるロシア語GLUEを紹介する。
9つのタスクのベンチマークは、SuperGLUEの手法と類似して収集され、ロシア語のスクラッチから開発された。
論文 参考訳(メタデータ) (2020-10-29T20:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。