論文の概要: Civil Rephrases Of Toxic Texts With Self-Supervised Transformers
- arxiv url: http://arxiv.org/abs/2102.05456v2
- Date: Thu, 11 Feb 2021 14:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 08:29:28.182225
- Title: Civil Rephrases Of Toxic Texts With Self-Supervised Transformers
- Title(参考訳): 自己監督型トランスフォーマーによる有害テキストの民話
- Authors: Leo Laugier, John Pavlopoulos, Jeffrey Sorensen, Lucas Dixon
- Abstract要約: この研究は、より市民的な方法で有毒なコメントを言い換えるのに役立つモデルに焦点を当てている。
CAE-T5と呼ばれる自己監督型学習モデルが導入されました。
- 参考スコア(独自算出の注目度): 4.615338063719135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Platforms that support online commentary, from social networks to news sites,
are increasingly leveraging machine learning to assist their moderation
efforts. But this process does not typically provide feedback to the author
that would help them contribute according to the community guidelines. This is
prohibitively time-consuming for human moderators to do, and computational
approaches are still nascent. This work focuses on models that can help suggest
rephrasings of toxic comments in a more civil manner. Inspired by recent
progress in unpaired sequence-to-sequence tasks, a self-supervised learning
model is introduced, called CAE-T5. CAE-T5 employs a pre-trained text-to-text
transformer, which is fine tuned with a denoising and cyclic auto-encoder loss.
Experimenting with the largest toxicity detection dataset to date (Civil
Comments) our model generates sentences that are more fluent and better at
preserving the initial content compared to earlier text style transfer systems
which we compare with using several scoring systems and human evaluation.
- Abstract(参考訳): ソーシャルネットワークからニュースサイトまで、オンラインコメントをサポートするプラットフォームは、機械学習を活用してモデレーションを支援している。
しかし、このプロセスは通常、コミュニティガイドラインに従って貢献してくれる著者へのフィードバックを提供しません。
これは人間のモデレーターが行うのに極めて時間がかかり、計算アプローチはまだ初期段階にある。
この研究は、より市民的な方法で有毒なコメントを言い換えるのに役立つモデルに焦点を当てている。
近年のシーケンス・ツー・シーケンス・タスクの進歩に触発されて,CAE-T5と呼ばれる自己教師型学習モデルが導入された。
cae-t5は事前学習されたテキストからテキストへの変換器を採用しており、ノイズとサイクリックなオートエンコーダの損失を微調整している。
これまでで最大の毒性検出データセット(Civil Comments)を用いて実験を行った結果,本モデルでは,複数のスコアリングシステムと人的評価を用いて比較したテキストスタイルの転送システムと比較して,初期コンテンツ保存の精度が向上した文を生成する。
関連論文リスト
- Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization [0.05852077003870416]
この研究は、トランスフォーマーベースのBARTモデルを利用して人間のような要約を行う。
エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプル記事を用いて検証を行った。
微調整モデルの性能をベースライン事前訓練モデルと比較する。
BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約の方が17%も現実的に一貫性があることを示している。
論文 参考訳(メタデータ) (2024-10-22T09:25:04Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Weigh Your Own Words: Improving Hate Speech Counter Narrative Generation
via Attention Regularization [31.40751207207214]
オンラインヘイトスピーチと戦うための最近の計算手法は、カウンターナラティブの自動生成を伴う。
本稿では, PLMの一般化機能を改善するために, 新たなアテンション正規化手法を提案する。
正規化されたモデルは、ほとんどの場合において最先端のアプローチよりも優れたカウンターナラティブを生み出す。
論文 参考訳(メタデータ) (2023-09-05T15:27:22Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - RL4F: Generating Natural Language Feedback with Reinforcement Learning
for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。
我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。
複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文 参考訳(メタデータ) (2023-05-15T17:57:16Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。