論文の概要: Adding Instructions during Pretraining: Effective Way of Controlling
Toxicity in Language Models
- arxiv url: http://arxiv.org/abs/2302.07388v1
- Date: Tue, 14 Feb 2023 23:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:20:06.060021
- Title: Adding Instructions during Pretraining: Effective Way of Controlling
Toxicity in Language Models
- Title(参考訳): 事前学習中に指示を加える:言語モデルにおける毒性の効果的な制御法
- Authors: Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
- Abstract要約: 本稿では,その実用性を損なうことなく,モデル毒性を大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。
この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。
以上の結果から,最も優れた性能戦略(INST)は,5つのベンチマークNLPタスクの精度を維持しつつ,毒性の確率を61%まで大幅に低下させることが示唆された。
- 参考スコア(独自算出の注目度): 29.505176809305095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained large language models have become indispensable for solving
various natural language processing (NLP) tasks. However, safely deploying them
in real world applications is challenging because they generate toxic content.
To address this challenge, we propose two novel pretraining data augmentation
strategies that significantly reduce model toxicity without compromising its
utility. Our two strategies are: (1) MEDA: adds raw toxicity score as meta-data
to the pretraining samples, and (2) INST: adds instructions to those samples
indicating their toxicity. Our results indicate that our best performing
strategy (INST) substantially reduces the toxicity probability up to 61% while
preserving the accuracy on five benchmark NLP tasks as well as improving AUC
scores on four bias detection tasks by 1.3%. We also demonstrate the
generalizability of our techniques by scaling the number of training samples
and the number of model parameters.
- Abstract(参考訳): 様々な自然言語処理(NLP)タスクの解決には,事前訓練された大規模言語モデルが必要である。
しかし、現実世界のアプリケーションに安全にデプロイすることは、有害なコンテンツを生成するため困難である。
そこで本研究では,モデル毒性を損なうことなく大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。
この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。
以上の結果から,5つのベンチマークNLPタスクの精度を保ちつつ,4つのバイアス検出タスクのAUCスコアを1.3%向上させながら,最も優れたパフォーマンス戦略(INST)により毒性の確率は61%まで大幅に低下することが示唆された。
また,トレーニングサンプル数とモデルパラメータ数を拡大することにより,本手法の一般化可能性を示す。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Persistent Pre-Training Poisoning of LLMs [71.53046642099142]
我々の研究は、事前学習中に言語モデルも妥協できるかどうかを初めて評価した。
我々は、有害な敵に対する影響を測定するために、スクラッチから一連のLSMを事前訓練する。
我々の主な結果は、モデルの事前トレーニングデータセットの0.1%しか中毒にならず、4つの攻撃のうち3つがポストトレーニングを通じて持続するのに十分であるということです。
論文 参考訳(メタデータ) (2024-10-17T16:27:13Z) - TaeBench: Improving Quality of Toxic Adversarial Examples [10.768188905349874]
本稿では, 生成した有害な逆数例(TAE)の品質管理のためのアノテーションパイプラインを提案する。
我々は,TAEの品質要件を評価するために,モデルに基づく自動アノテーションと人間による品質検証を設計する。
我々は,TaeBenchがSOTA毒性量モデレーションモデルやサービスを効果的に移行攻撃できることを示す。
論文 参考訳(メタデータ) (2024-10-08T00:14:27Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content [13.600755614321493]
大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。
1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。
その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
論文 参考訳(メタデータ) (2023-08-10T14:14:13Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - UoB at SemEval-2021 Task 5: Extending Pre-Trained Language Models to
Include Task and Domain-Specific Information for Toxic Span Prediction [0.8376091455761259]
Toxicityはソーシャルメディアで広く普及しており、オンラインコミュニティの健康に大きな脅威をもたらしている。
近年,多くのNLPタスクにおいて最先端の成果を達成している事前学習型言語モデルの導入により,自然言語処理へのアプローチ方法が変化している。
論文 参考訳(メタデータ) (2021-10-07T18:29:06Z) - UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans
Detection [0.7197592390105455]
Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいている。
このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。
本モデルは,トランスフォーマーベースモデルの微調整過程において,半教師付き環境で仮想適応トレーニングを適用することを検討する。
論文 参考訳(メタデータ) (2021-04-17T19:42:12Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。