論文の概要: Challenges in Detoxifying Language Models
- arxiv url: http://arxiv.org/abs/2109.07445v1
- Date: Wed, 15 Sep 2021 17:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:21:28.186776
- Title: Challenges in Detoxifying Language Models
- Title(参考訳): 言語モデルのデトックス化の課題
- Authors: Johannes Welbl, Amelia Glaese, Jonathan Uesato, Sumanth Dathathri,
John Mellor, Lisa Anne Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben
Coppin, Po-Sen Huang
- Abstract要約: 大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
- 参考スコア(独自算出の注目度): 44.48396735574315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LM) generate remarkably fluent text and can be
efficiently adapted across NLP tasks. Measuring and guaranteeing the quality of
generated text in terms of safety is imperative for deploying LMs in the real
world; to this end, prior work often relies on automatic evaluation of LM
toxicity. We critically discuss this approach, evaluate several toxicity
mitigation strategies with respect to both automatic and human evaluation, and
analyze consequences of toxicity mitigation in terms of model bias and LM
quality. We demonstrate that while basic intervention strategies can
effectively optimize previously established automatic metrics on the
RealToxicityPrompts dataset, this comes at the cost of reduced LM coverage for
both texts about, and dialects of, marginalized groups. Additionally, we find
that human raters often disagree with high automatic toxicity scores after
strong toxicity reduction interventions -- highlighting further the nuances
involved in careful evaluation of LM toxicity.
- Abstract(参考訳): 大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質を計測し保証することは、実世界におけるLMの展開に不可欠であり、このために、先行研究はしばしばLM毒性の自動評価に頼っている。
我々はこのアプローチを批判的に議論し, 自動評価と人間評価の両方に関していくつかの毒性緩和戦略を評価し, モデルバイアスとlm品質の観点から毒性緩和の結果を分析する。
基本的な介入戦略は、RealToxicityPromptsデータセット上で確立された自動メトリクスを効果的に最適化することができるが、これは、疎化されたグループに関するテキストと方言の両方に対するLMカバレッジを減らすコストが伴う。
さらに,強い毒性低減介入後の自動毒性スコアには,人手がしばしば一致しない傾向がみられ,lm毒性の慎重な評価に関わるニュアンスがさらに強調された。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework
and Semantic-Based Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づく自動ロバストメトリックを導入し,モデル応答が有害かどうかを識別する。
評価データセットを用いて、我々の測定値であるLLMs As ToxiciTy Evaluators (LATTE)を評価する。
実験結果から, 毒性測定の成績は良好であり, F1スコアの12ポイント向上した。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Detoxifying Language Models Risks Marginalizing Minority Voices [40.918564746367586]
言語モデル(LM)は、実際にデプロイされるには、安全かつ公平でなければなりません。
有毒なLM生成を緩和する解毒技術が提案されている。
現在の解毒技術は公平性を損なうことを示し、限界群が使用する言語に対するlmsの有用性を低下させる。
論文 参考訳(メタデータ) (2021-04-13T17:52:01Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。