論文の概要: Comprehensive Assessment of Toxicity in ChatGPT
- arxiv url: http://arxiv.org/abs/2311.14685v1
- Date: Fri, 3 Nov 2023 14:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 14:06:31.926081
- Title: Comprehensive Assessment of Toxicity in ChatGPT
- Title(参考訳): ChatGPTにおける毒性の総合評価
- Authors: Boyang Zhang, Xinyue Shen, Wai Man Si, Zeyang Sha, Zeyuan Chen, Ahmed
Salem, Yun Shen, Michael Backes, Yang Zhang
- Abstract要約: 本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
- 参考スコア(独自算出の注目度): 49.71090497696024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moderating offensive, hateful, and toxic language has always been an
important but challenging topic in the domain of safe use in NLP. The emerging
large language models (LLMs), such as ChatGPT, can potentially further
accentuate this threat. Previous works have discovered that ChatGPT can
generate toxic responses using carefully crafted inputs. However, limited
research has been done to systematically examine when ChatGPT generates toxic
responses. In this paper, we comprehensively evaluate the toxicity in ChatGPT
by utilizing instruction-tuning datasets that closely align with real-world
scenarios. Our results show that ChatGPT's toxicity varies based on different
properties and settings of the prompts, including tasks, domains, length, and
languages. Notably, prompts in creative writing tasks can be 2x more likely
than others to elicit toxic responses. Prompting in German and Portuguese can
also double the response toxicity. Additionally, we discover that certain
deliberately toxic prompts, designed in earlier studies, no longer yield
harmful responses. We hope our discoveries can guide model developers to better
regulate these AI systems and the users to avoid undesirable outputs.
- Abstract(参考訳): 攻撃的、憎悪的、有害な言語は、常にNLPにおける安全な使用領域において重要であるが挑戦的なトピックである。
ChatGPTのような新興の大規模言語モデル(LLM)は、この脅威をさらに強調する可能性がある。
従来の研究で、ChatGPTは慎重に作り上げた入力を使って有害な反応を発生させることができた。
しかし、ChatGPTが有害反応をいつ発生するかを体系的に調べるために限られた研究がなされている。
本稿では,ChatGPTの毒性を実世界のシナリオと密に一致した指導訓練データセットを用いて総合的に評価する。
その結果,ChatGPTの毒性は,タスク,ドメイン,長さ,言語など,プロンプトの特性や設定によって異なることがわかった。
特に、クリエイティブな文章作成タスクのプロンプトは、有害な反応を誘発する他のタスクよりも2倍高い可能性がある。
ドイツ語とポルトガル語のプロンプトはまた、反応毒性を2倍にすることができる。
さらに、以前の研究で設計された特定の故意に有害なプロンプトは、もはや有害な反応を生じないことがわかった。
私たちの発見によって、モデル開発者がこれらのAIシステムとユーザをよりよく規制し、望ましくないアウトプットを避けることができることを期待しています。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。
自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。
LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文 参考訳(メタデータ) (2024-06-25T14:02:11Z) - "HOT" ChatGPT: The promise of ChatGPT in detecting and discriminating
hateful, offensive, and toxic comments on social media [2.105577305992576]
生成AIモデルには、有害なコンテンツを理解し、検出する能力がある。
ChatGPTは人間のアノテーションと比較して約80%の精度が得られる。
論文 参考訳(メタデータ) (2023-04-20T19:40:51Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。