Fugu-MT 論文翻訳(概要): Challenges in Detoxifying Language Models

論文の概要: Challenges in Detoxifying Language Models

arxiv url: http://arxiv.org/abs/2109.07445v1
Date: Wed, 15 Sep 2021 17:27:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 15:21:28.186776
Title: Challenges in Detoxifying Language Models
Title（参考訳）: 言語モデルのデトックス化の課題
Authors: Johannes Welbl, Amelia Glaese, Jonathan Uesato, Sumanth Dathathri, John Mellor, Lisa Anne Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben Coppin, Po-Sen Huang
Abstract要約: 大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
参考スコア（独自算出の注目度）: 44.48396735574315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LM) generate remarkably fluent text and can be efficiently adapted across NLP tasks. Measuring and guaranteeing the quality of generated text in terms of safety is imperative for deploying LMs in the real world; to this end, prior work often relies on automatic evaluation of LM toxicity. We critically discuss this approach, evaluate several toxicity mitigation strategies with respect to both automatic and human evaluation, and analyze consequences of toxicity mitigation in terms of model bias and LM quality. We demonstrate that while basic intervention strategies can effectively optimize previously established automatic metrics on the RealToxicityPrompts dataset, this comes at the cost of reduced LM coverage for both texts about, and dialects of, marginalized groups. Additionally, we find that human raters often disagree with high automatic toxicity scores after strong toxicity reduction interventions -- highlighting further the nuances involved in careful evaluation of LM toxicity.
Abstract（参考訳）: 大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。安全性の観点から生成したテキストの品質を計測し保証することは、実世界におけるLMの展開に不可欠であり、このために、先行研究はしばしばLM毒性の自動評価に頼っている。我々はこのアプローチを批判的に議論し, 自動評価と人間評価の両方に関していくつかの毒性緩和戦略を評価し, モデルバイアスとlm品質の観点から毒性緩和の結果を分析する。基本的な介入戦略は、RealToxicityPromptsデータセット上で確立された自動メトリクスを効果的に最適化することができるが、これは、疎化されたグループに関するテキストと方言の両方に対するLMカバレッジを減らすコストが伴う。さらに,強い毒性低減介入後の自動毒性スコアには,人手がしばしば一致しない傾向がみられ,lm毒性の慎重な評価に関わるニュアンスがさらに強調された。

関連論文リスト

Evaluating Prompt-Driven Chinese Large Language Models: The Influence of Persona Assignment on Stereotypes and Safeguards [3.1308581258317485]
広義の中国語モデルであるQwenにおいて,ペルソナの割り当てが拒絶行動および応答毒性に与える影響を解析した。本研究は, 拒絶率に有意な性別バイアスを呈し, ある否定的な人物が, 最大60倍の中国の社会集団に対する毒性を増大させることができることを示した。この毒性を軽減するために,Qwenと外部評価器の反復的相互作用を利用した,革新的なマルチモデルフィードバック戦略を提案する。
論文参考訳（メタデータ） (2025-06-05T12:47:21Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
Risk-Averse Finetuning of Large Language Models [15.147772383812313]
本稿では,有害なアウトプットの発生を最小限に抑えるため,リスク回避の原則をLarge Language Models (LLMs) に組み込むことを提案する。感情修正と毒性軽減タスクの実証評価は、人間のフィードバックによるリスク-逆強化学習の有効性を示す。
論文参考訳（メタデータ） (2025-01-12T19:48:21Z)
How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [0.5597620745943381]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
論文参考訳（メタデータ） (2025-01-03T10:08:49Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文参考訳（メタデータ） (2024-05-17T09:42:59Z)
PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文参考訳（メタデータ） (2024-05-15T14:22:33Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文参考訳（メタデータ） (2022-12-20T18:50:00Z)
Detoxifying Language Models Risks Marginalizing Minority Voices [40.918564746367586]
言語モデル(LM)は、実際にデプロイされるには、安全かつ公平でなければなりません。有毒なLM生成を緩和する解毒技術が提案されている。現在の解毒技術は公平性を損なうことを示し、限界群が使用する言語に対するlmsの有用性を低下させる。
論文参考訳（メタデータ） (2021-04-13T17:52:01Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。