論文の概要: Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models
- arxiv url: http://arxiv.org/abs/2305.18189v1
- Date: Mon, 29 May 2023 16:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:10:00.745589
- Title: Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models
- Title(参考訳): マーク付きペルソナ:自然言語を用いることで言語モデルのステレオタイプを測定する
- Authors: Myra Cheng, Esin Durmus, Dan Jurafsky
- Abstract要約: 大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
- 参考スコア(独自算出の注目度): 33.157279170602784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To recognize and mitigate harms from large language models (LLMs), we need to
understand the prevalence and nuances of stereotypes in LLM outputs. Toward
this end, we present Marked Personas, a prompt-based method to measure
stereotypes in LLMs for intersectional demographic groups without any lexicon
or data labeling. Grounded in the sociolinguistic concept of markedness (which
characterizes explicitly linguistically marked categories versus unmarked
defaults), our proposed method is twofold: 1) prompting an LLM to generate
personas, i.e., natural language descriptions, of the target demographic group
alongside personas of unmarked, default groups; 2) identifying the words that
significantly distinguish personas of the target group from corresponding
unmarked ones. We find that the portrayals generated by GPT-3.5 and GPT-4
contain higher rates of racial stereotypes than human-written portrayals using
the same prompts. The words distinguishing personas of marked (non-white,
non-male) groups reflect patterns of othering and exoticizing these
demographics. An intersectional lens further reveals tropes that dominate
portrayals of marginalized groups, such as tropicalism and the
hypersexualization of minoritized women. These representational harms have
concerning implications for downstream applications like story generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の害を認識し軽減するためには,LLM出力におけるステレオタイプの有効性とニュアンスを理解する必要がある。
そこで我々は,LLMのステレオタイプをレキシコンやデータラベリングを使わずに,交差する人口動態群に対する即時測定手法であるMarked Personasを提案する。
識別性という社会言語学的概念(明示的に言語的にマークされたカテゴリーと無マークのデフォルトを特徴付ける)を基礎として,提案手法は2つある。
1) LLMは,未マークのデフォルトグループのペルソナとともに,対象とする人口動態群のペルソナ,すなわち自然言語記述を生成するよう促す。
2)対象グループのパーソナラと対応する無標のものとを著しく区別する単語の識別。
また, GPT-3.5 と GPT-4 が生成する描写は, 同一のプロンプトを用いたヒトの描写よりも, 人種的ステレオタイプの割合が高いことがわかった。
マークされた(非白人、非白人の)集団のパーソナラを区別する言葉は、他の集団のパターンを反映し、これらの集団を異種化する。
交叉レンズは、熱帯主義や少数女性の多性愛など、辺境化されたグループの描写を支配するトロピーを更に明らかにする。
これらの表現的危害はストーリー生成のような下流アプリケーションにも影響します。
関連論文リスト
- White Men Lead, Black Women Help: Uncovering Gender, Racial, and Intersectional Bias in Language Agency [58.27353205269664]
言語エージェンシーにおける社会的バイアスは、人書きと大規模言語モデル(LLM)の生成したテキストの両方に現れる。
本研究では,人文・大規模言語モデル(LLM)生成テキストの社会的偏見を研究する上で,エージェンシーを重要な側面として位置づける。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Laissez-Faire Harms: Algorithmic Biases in Generative Language Models [0.0]
そこで本研究では,最も広範に普及しているLMの5つのテキストから合成されたテキストが,未成年者に対する脱落,従属化,ステレオタイピングの被害を永久に及ぼしていることを示す。
我々は、そのような個人が、LM生成出力に遭遇する確率が数百から数千倍にも達するほど、偏見の証拠が広範囲にあることを発見した。
本研究は,言語モデルによる差別的被害から消費者を守るための緊急の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-04-11T05:09:03Z) - Large language models cannot replace human participants because they
cannot portray identity groups [40.865099955752825]
我々は,大きな言語モデル (LLM) は,人口集団の表現の誤りとフラット化の両方を負うと論じている。
アイデンティティーがアイデンティティーを不可欠なものにする方法について、第3の考察について論じる。
全体としては、LLMが課題に関連のある人物を置き換えることを意図したユースケースに注意を喚起する。
論文 参考訳(メタデータ) (2024-02-02T21:21:06Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked
Language Models [30.582132471411263]
Crowd Stereotype Pairsベンチマーク(CrowS-Pairs)を紹介する。
CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。
その結果, CrowS-Pairs の各カテゴリーにおいて, 広く使われている3つの文のすべてが, 実質的にステレオタイプを好んでいることがわかった。
論文 参考訳(メタデータ) (2020-09-30T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。