論文の概要: Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems
- arxiv url: http://arxiv.org/abs/2310.05280v5
- Date: Thu, 2 Nov 2023 23:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 17:03:30.761024
- Title: Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems
- Title(参考訳): パーソナライズされたオウムはより危険か?
対話システムにおけるペルソナバイアスの評価
- Authors: Yixin Wan, Jieyu Zhao, Aman Chadha, Nanyun Peng, Kai-Wei Chang
- Abstract要約: 我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
- 参考スコア(独自算出の注目度): 103.416202777731
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advancements in Large Language Models empower them to follow freeform
instructions, including imitating generic or specific demographic personas in
conversations. We define generic personas to represent demographic groups, such
as "an Asian person", whereas specific personas may take the form of specific
popular Asian names like "Yumi". While the adoption of personas enriches user
experiences by making dialogue systems more engaging and approachable, it also
casts a shadow of potential risk by exacerbating social biases within model
responses, thereby causing societal harm through interactions with users. In
this paper, we systematically study "persona biases", which we define to be the
sensitivity of dialogue models' harmful behaviors contingent upon the personas
they adopt. We categorize persona biases into biases in harmful expression and
harmful agreement, and establish a comprehensive evaluation framework to
measure persona biases in five aspects: Offensiveness, Toxic Continuation,
Regard, Stereotype Agreement, and Toxic Agreement. Additionally, we propose to
investigate persona biases by experimenting with UNIVERSALPERSONA, a
systematically constructed persona dataset encompassing various types of both
generic and specific model personas. Through benchmarking on four different
models -- including Blender, ChatGPT, Alpaca, and Vicuna -- our study uncovers
significant persona biases in dialogue systems. Our findings also underscore
the pressing need to revisit the use of personas in dialogue agents to ensure
safe application.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、会話における一般的な人格や特定の人格を模倣するなど、フリーフォームの指示に従うことを可能にする。
一般のペルソナを「アジア人」などの人口集団を表すものとして定義する一方、特定のペルソナは「弓」のような特定のアジア名の形をとることがある。
ペルソナの採用は対話システムをより魅力的にし、親しみやすくすることでユーザエクスペリエンスを高める一方で、モデル応答内の社会的バイアスを悪化させ、ユーザとのインタラクションを通じて社会的な危害をもたらすことにより、潜在的なリスクの影を形作る。
本稿では,対話モデルの有害な行動が,その行動に適応する人格に対する感受性として定義する「人格バイアス」を体系的に研究する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において人格バイアスを測定する包括的な評価枠組みを確立する。
さらに,多種多様なモデルペルソナを包含するシステム構築型ペルソナデータセットであるuniversalpersonaを用いて,パーソナバイアスの調査を行う。
blender、chatgpt、alpaca、vicunaを含む4つの異なるモデルのベンチマークによって、対話システムにおける重要なペルソナバイアスが明らかになった。
また,対話エージェントにおけるペルソナの使用を再検討し,安全なアプリケーションを確保する必要性についても考察した。
関連論文リスト
- Stereotype or Personalization? User Identity Biases Chatbot Recommendations [54.38329151781466]
大規模言語モデル(LLM)は,ユーザが何を望んでいるのか,何者なのかを反映したレコメンデーションを生成する。
モデルが、ユーザが意図的に自身のアイデンティティを明らかにするかどうかに関わらず、人種的にステレオタイプなレコメンデーションを生成することがわかった。
実験の結果,ユーザの識別がモデルレコメンデーションに大きく影響しているにもかかわらず,モデル応答はユーザクエリに応答して,この事実を難読化することがわかった。
論文 参考訳(メタデータ) (2024-10-08T01:51:55Z) - When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models [34.831938712535084]
商用AIシステムは一般に、システムプロンプトにおけるLarge Language Models(LLM)の役割を定義している。
客観的タスクにおいて、異なるペルソナがモデルのパフォーマンスにどの程度影響するかは、まだ不明である。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
論文 参考訳(メタデータ) (2023-11-16T17:48:55Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - Towards Building a Personalized Dialogue Generator via Implicit User
Persona Detection [0.0]
高品質なトランスミッションは基本的に、相手のペルソナを反映して構築されていると考えています。
そこで本研究では,暗黙のユーザペルソナを検知する対話生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T08:12:10Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。
我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。
BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文 参考訳(メタデータ) (2021-04-18T05:44:41Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。