論文の概要: Text Detoxification using Large Pre-trained Neural Models
- arxiv url: http://arxiv.org/abs/2109.08914v1
- Date: Sat, 18 Sep 2021 11:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:54:08.817295
- Title: Text Detoxification using Large Pre-trained Neural Models
- Title(参考訳): 大規模事前学習ニューラルモデルを用いたテキストデトキサイゼーション
- Authors: David Dale, Anton Voronov, Daryna Dementieva, Varvara Logacheva, Olga
Kozlova, Nikita Semenov and Alexander Panchenko
- Abstract要約: テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
- 参考スコア(独自算出の注目度): 57.72086777177844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present two novel unsupervised methods for eliminating toxicity in text.
Our first method combines two recent ideas: (1) guidance of the generation
process with small style-conditional language models and (2) use of
paraphrasing models to perform style transfer. We use a well-performing
paraphraser guided by style-trained language models to keep the text content
and remove toxicity. Our second method uses BERT to replace toxic words with
their non-offensive synonyms. We make the method more flexible by enabling BERT
to replace mask tokens with a variable number of words. Finally, we present the
first large-scale comparative study of style transfer models on the task of
toxicity removal. We compare our models with a number of methods for style
transfer. The models are evaluated in a reference-free way using a combination
of unsupervised style transfer metrics. Both methods we suggest yield new SOTA
results.
- Abstract(参考訳): テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
第1の方法は,(1) 生成過程を小さなスタイル条件付き言語モデルで指導すること,(2) 言い換えモデルを用いてスタイル伝達を行うこと,である。
スタイル学習された言語モデルに導かれた高性能のパラフレーザーを用いて,テキスト内容の保持と毒性の除去を行う。
第2の方法は、有害な単語を非攻撃的同義語に置き換えるためにBERTを使用する。
BERTがマスクトークンを可変数の単語で置き換えることにより、より柔軟にする方法を提案する。
最後に, 毒性除去作業におけるスタイル伝達モデルの大規模比較研究について紹介する。
モデルとスタイル転送のいくつかの方法を比較した。
モデルは教師なしのスタイル転送メトリクスの組み合わせを使って参照フリーで評価される。
どちらの方法も新しいSOTA結果をもたらす。
関連論文リスト
- Unsupervised Text Style Transfer via LLMs and Attention Masking with
Multi-way Interactions [18.64326057581588]
非教師付きテキストスタイル転送(UTST)が自然言語処理(NLP)分野における重要な課題として浮上している。
本稿では,命令を調整したパイプライン・フレームワークであるLarge Language Models (LLMs) から注目マスキング・モデルへの知識蒸留,構築された並列例を用いたコンテキスト内学習の4つの方法を提案する。
これらのマルチウェイインタラクションは、スタイルの強さ、コンテンツ保存、テキストの流布といった観点から、ベースラインを改善することを実証的に示しています。
論文 参考訳(メタデータ) (2024-02-21T09:28:02Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image
Generation [86.65991476980648]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Prefix-Tuning Based Unsupervised Text Style Transfer [29.86587278794342]
教師なしテキストスタイル転送は、その内容を保持しながら入力文のスタイルを変更することができる生成モデルを訓練することを目的としている。
本稿では,事前学習された強力な大規模言語モデルを用いて,教師なしテキストスタイル転送のためのプレフィックス・チューニング方式を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:13:08Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - Replacing Language Model for Style Transfer [6.364517234783756]
テキストスタイル転送(TST)のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を導入する。
提案手法は,ソース文の各トークンを類似した意味を持つテキストスパンで自動回帰的に置き換える。
新しいスパンは非自己回帰型マスキング言語モデルによって生成され、置換されたトークンのローカルコンテキストの意味をよりよく保存することができる。
論文 参考訳(メタデータ) (2022-11-14T13:35:55Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Collocation2Text: Controllable Text Generation from Guide Phrases in
Russian [0.0]
Collocation2Textはロシア語で自動制御可能なテキスト生成のためのプラグイン・アンド・プレイ方式である。
この手法は、自己回帰言語ruGPT-3モデルと自己符号化言語ruRoBERTaモデルという2つの相互作用モデルに基づいている。
提案手法を用いてニュース記事を生成する実験は,自動生成された流布文に対して有効性を示した。
論文 参考訳(メタデータ) (2022-06-18T17:10:08Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Second-Order Unsupervised Neural Dependency Parsing [52.331561380948564]
ほとんどの教師なし依存は、親子情報のみを考慮した一階確率的生成モデルに基づいている。
親子や兄弟姉妹の情報を組み込んだ教師なし神経依存モデルの2階拡張を提案する。
我々のジョイントモデルは、完全なWSJテストセットにおける前の最先端技術よりも10%改善します。
論文 参考訳(メタデータ) (2020-10-28T03:01:33Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。