論文の概要: Detoxifying Language Models with a Toxic Corpus
- arxiv url: http://arxiv.org/abs/2205.00320v1
- Date: Sat, 30 Apr 2022 18:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 14:28:53.448543
- Title: Detoxifying Language Models with a Toxic Corpus
- Title(参考訳): トックスコーパスを用いた言語モデルのデトックス化
- Authors: Yoon A Park, Frank Rudzicz
- Abstract要約: 毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 16.7345472998388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies have investigated the tendency of autoregressive language
models to generate contexts that exhibit undesired biases and toxicity. Various
debiasing approaches have been proposed, which are primarily categorized into
data-based and decoding-based. In our study, we investigate the ensemble of the
two debiasing paradigms, proposing to use toxic corpus as an additional
resource to reduce the toxicity. Our result shows that toxic corpus can indeed
help to reduce the toxicity of the language generation process substantially,
complementing the existing debiasing methods.
- Abstract(参考訳): 既存の研究は、望ましくないバイアスや毒性を示す文脈を生成するための自己回帰言語モデルの傾向を調査している。
様々なデバイアス手法が提案されており、主にデータベースとデコードベースに分類される。
本研究では,2つの脱バイアスパラダイムの合理化について検討し,毒性低減のための追加資源として有毒コーパスの利用を提案する。
以上の結果から, 有害コーパスは言語生成過程の毒性を大幅に低下させ, 既存の嫌悪法を補完すると考えられる。
関連論文リスト
- Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。