論文の概要: Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems
- arxiv url: http://arxiv.org/abs/2310.05280v1
- Date: Sun, 8 Oct 2023 21:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:51:40.467335
- Title: Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems
- Title(参考訳): パーソナライズされたオウムはより危険か?
対話システムにおけるペルソナバイアスの評価
- Authors: Yixin Wan, Jieyu Zhao, Nanyun Peng, Kai-Wei Chang, Aman Chadha
- Abstract要約: ペルソナバイアス(Persona biases)とは、人格の違いに対する有害な対話モデル行動の感度である。
我々は、攻撃性、有害継続性、関係性、ステレオタイプ合意、および有害合意の5つの側面でペルソナバイアスを測定する。
我々の研究では、Blender、ChatGPT、Alpaca、Vicunaの4つのモデルにおいて、重要なペルソナバイアスを明らかにした。
- 参考スコア(独自算出の注目度): 103.416202777731
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advancements in Large Language Models empower them to follow freeform
instructions, including imitating generic or specific demographic personas in
conversations. Generic personas refer to an individual from a demographic group
(e.g. an Asian person), whereas specific personas can be actual names of
historical figures. While the adoption of personas allows dialogue systems to
be more engaging and approachable to users, it also carries the potential risk
of exacerbating social biases in model responses, further causing societal
harms through interactions with users. In this paper, we systematically study
"persona biases", which we define to be the sensitivity of harmful dialogue
model behaviors to different persona adoptions. We categorize persona biases
into biases in harmful expression and harmful agreement, as well as establish a
comprehensive evaluation framework to measure persona biases in five aspects:
Offensiveness, Toxic Continuation, Regard, Stereotype Agreement, and Toxic
Agreement. Additionally, we propose to comprehensively investigate persona
biases through experimenting with UniversalPersona, a systematized persona
dataset with a comprehensive list of both generic and specific model personas.
Through benchmarking on four different models, including Blender, ChatGPT,
Alpaca, and Vicuna, our study uncovers significant persona biases in these
dialogue systems.Findings of our study underscores the immediate need to
revisit the use of persona traits in dialogue agents, to ensure their safe
application.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、会話における一般的な人格や特定の人格を模倣するなど、フリーフォームの指示に従うことを可能にする。
一般的なパーソナラは人口統計グループ(例えばアジア人)の個人を指し、特定のパーソナラは歴史的人物の実際の名前である。
ペルソナの採用により、対話システムはユーザに対してより魅力的で親しみやすいものになる一方で、モデル応答における社会的バイアスを悪化させ、さらにユーザとのインタラクションを通じて社会的な危害を生じさせる潜在的なリスクもある。
本稿では,有害な対話モデル行動の異なる人格的適応に対する感受性を規定する「人格バイアス」を体系的に研究する。
我々は、ペルソナバイアスを有害表現と有害合意のバイアスに分類し、攻撃性、有害継続性、配慮、ステレオタイプ合意、有害合意の5つの側面におけるパーソナバイアスを測定する包括的な評価枠組みを確立する。
さらに,汎用型および特定型モデルペルソナの包括的リストを持つ体系化されたペルソナデータセットであるuniversalpersonaを用いて,パーソナバイアスを総合的に調査する。
blender、chatgpt、alpaca、vicunaの4つの異なるモデルのベンチマークによって、これらの対話システムにおける重要なペルソナバイアスが明らかになった。
関連論文リスト
- Stereotype or Personalization? User Identity Biases Chatbot Recommendations [54.38329151781466]
大規模言語モデル(LLM)は,ユーザが何を望んでいるのか,何者なのかを反映したレコメンデーションを生成する。
モデルが、ユーザが意図的に自身のアイデンティティを明らかにするかどうかに関わらず、人種的にステレオタイプなレコメンデーションを生成することがわかった。
実験の結果,ユーザの識別がモデルレコメンデーションに大きく影響しているにもかかわらず,モデル応答はユーザクエリに応答して,この事実を難読化することがわかった。
論文 参考訳(メタデータ) (2024-10-08T01:51:55Z) - When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models [34.831938712535084]
商用AIシステムは一般に、システムプロンプトにおけるLarge Language Models(LLM)の役割を定義している。
客観的タスクにおいて、異なるペルソナがモデルのパフォーマンスにどの程度影響するかは、まだ不明である。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
論文 参考訳(メタデータ) (2023-11-16T17:48:55Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - Towards Building a Personalized Dialogue Generator via Implicit User
Persona Detection [0.0]
高品質なトランスミッションは基本的に、相手のペルソナを反映して構築されていると考えています。
そこで本研究では,暗黙のユーザペルソナを検知する対話生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T08:12:10Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。
我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。
BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文 参考訳(メタデータ) (2021-04-18T05:44:41Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。