論文の概要: Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
- arxiv url: http://arxiv.org/abs/2304.05335v1
- Date: Tue, 11 Apr 2023 16:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 14:06:10.300872
- Title: Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
- Title(参考訳): ChatGPTにおける毒性:ペルソナ指定言語モデルの解析
- Authors: Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan,
Karthik Narasimhan
- Abstract要約: 大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
- 参考スコア(独自算出の注目度): 23.53559226972413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown incredible capabilities and
transcended the natural language processing (NLP) community, with adoption
throughout many services like healthcare, therapy, education, and customer
service. Since users include people with critical information needs like
students or patients engaging with chatbots, the safety of these systems is of
prime importance. Therefore, a clear understanding of the capabilities and
limitations of LLMs is necessary. To this end, we systematically evaluate
toxicity in over half a million generations of ChatGPT, a popular
dialogue-based LLM. We find that setting the system parameter of ChatGPT by
assigning it a persona, say that of the boxer Muhammad Ali, significantly
increases the toxicity of generations. Depending on the persona assigned to
ChatGPT, its toxicity can increase up to 6x, with outputs engaging in incorrect
stereotypes, harmful dialogue, and hurtful opinions. This may be potentially
defamatory to the persona and harmful to an unsuspecting user. Furthermore, we
find concerning patterns where specific entities (e.g., certain races) are
targeted more than others (3x more) irrespective of the assigned persona, that
reflect inherent discriminatory biases in the model. We hope that our findings
inspire the broader AI community to rethink the efficacy of current safety
guardrails and develop better techniques that lead to robust, safe, and
trustworthy AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越し、医療、セラピー、教育、カスタマーサービスなど多くのサービスで採用されています。
ユーザーは、学生やチャットボットに携わる患者のような重要な情報を必要とする人々を含むので、システムの安全性は重要である。
したがって、LLMの能力と限界を明確に理解する必要がある。
そこで我々は,一般的な対話型LLMであるChatGPTを50万世代以上にわたって系統的に評価した。
chatgptのシステムパラメータを、例えばボクサーのムハンマド・アリのペルソナに割り当てることで設定すると、世代の毒性が著しく増加することが判明した。
ChatGPTに割り当てられたペルソナによって、その毒性は6倍に増加し、不正なステレオタイプ、有害な対話、有害な意見が出力される。
これはペルソナにとって名誉であり、疑わしいユーザーにとって有害である可能性がある。
さらに、与えられたペルソナによらず、特定の実体(例えば、特定の人種)が他者(3倍以上)よりも標的となるパターンが、モデル固有の差別バイアスを反映している。
我々の発見は、幅広いAIコミュニティに、現在の安全ガードレールの有効性を再考させ、堅牢で安全で信頼できるAIシステムにつながるより良い技術を開発することを願っている。
関連論文リスト
- Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Exploring Human-LLM Conversations: Mental Models and the Originator of Toxicity [1.4003044924094596]
本研究では,大規模言語モデル(LLM)と実世界の人間のインタラクションを多様で制約のない環境で探索する。
以上の結果から,LSMは毒性のある物質を供給していると正しく非難されているものの,その内容を求める人間に要求されているか,少なくとも引き起こされていることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T14:20:05Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses [0.20971479389679337]
私たちは、ChatGPTが、IT以外のユーザが日々の作業のためにテキストをドラフトするのに役立つことを示しています。
システムの応答をバイアスだけでなく、構文的および文法的ミスに対して徹底的にチェックすることが極めて重要です。
論文 参考訳(メタデータ) (2023-09-21T07:54:25Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。
我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。
BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文 参考訳(メタデータ) (2021-04-18T05:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。