論文の概要: Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models
- arxiv url: http://arxiv.org/abs/2305.18189v1
- Date: Mon, 29 May 2023 16:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:10:00.745589
- Title: Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models
- Title(参考訳): マーク付きペルソナ:自然言語を用いることで言語モデルのステレオタイプを測定する
- Authors: Myra Cheng, Esin Durmus, Dan Jurafsky
- Abstract要約: 大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
- 参考スコア(独自算出の注目度): 33.157279170602784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To recognize and mitigate harms from large language models (LLMs), we need to
understand the prevalence and nuances of stereotypes in LLM outputs. Toward
this end, we present Marked Personas, a prompt-based method to measure
stereotypes in LLMs for intersectional demographic groups without any lexicon
or data labeling. Grounded in the sociolinguistic concept of markedness (which
characterizes explicitly linguistically marked categories versus unmarked
defaults), our proposed method is twofold: 1) prompting an LLM to generate
personas, i.e., natural language descriptions, of the target demographic group
alongside personas of unmarked, default groups; 2) identifying the words that
significantly distinguish personas of the target group from corresponding
unmarked ones. We find that the portrayals generated by GPT-3.5 and GPT-4
contain higher rates of racial stereotypes than human-written portrayals using
the same prompts. The words distinguishing personas of marked (non-white,
non-male) groups reflect patterns of othering and exoticizing these
demographics. An intersectional lens further reveals tropes that dominate
portrayals of marginalized groups, such as tropicalism and the
hypersexualization of minoritized women. These representational harms have
concerning implications for downstream applications like story generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の害を認識し軽減するためには,LLM出力におけるステレオタイプの有効性とニュアンスを理解する必要がある。
そこで我々は,LLMのステレオタイプをレキシコンやデータラベリングを使わずに,交差する人口動態群に対する即時測定手法であるMarked Personasを提案する。
識別性という社会言語学的概念(明示的に言語的にマークされたカテゴリーと無マークのデフォルトを特徴付ける)を基礎として,提案手法は2つある。
1) LLMは,未マークのデフォルトグループのペルソナとともに,対象とする人口動態群のペルソナ,すなわち自然言語記述を生成するよう促す。
2)対象グループのパーソナラと対応する無標のものとを著しく区別する単語の識別。
また, GPT-3.5 と GPT-4 が生成する描写は, 同一のプロンプトを用いたヒトの描写よりも, 人種的ステレオタイプの割合が高いことがわかった。
マークされた(非白人、非白人の)集団のパーソナラを区別する言葉は、他の集団のパターンを反映し、これらの集団を異種化する。
交叉レンズは、熱帯主義や少数女性の多性愛など、辺境化されたグループの描写を支配するトロピーを更に明らかにする。
これらの表現的危害はストーリー生成のような下流アプリケーションにも影響します。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Are Large Language Models Ready for Travel Planning? [6.307444995285539]
大規模言語モデル (LLMs) は、宿泊や観光において有望であり、人口統計群にまたがるサービス提供能力は未だ不明である。
本稿では,LDMを旅行計画アシスタントとして利用する際の性別と民族的偏見について検討する。
論文 参考訳(メタデータ) (2024-10-22T18:08:25Z) - Which Demographics do LLMs Default to During Annotation? [9.190535758368567]
データアノテーションに大規模言語モデル(LLM)を用いることで、2つの研究方向が開発された。
我々は,ヒトアノテータLLMのどの属性が本質的に模倣されているかを評価する。
性別、人種、年齢に関連する顕著な影響を、人口動態の促進において観察する。
論文 参考訳(メタデータ) (2024-10-11T14:02:42Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Laissez-Faire Harms: Algorithmic Biases in Generative Language Models [0.0]
そこで本研究では,最も広範に普及しているLMの5つのテキストから合成されたテキストが,未成年者に対する脱落,従属化,ステレオタイピングの被害を永久に及ぼしていることを示す。
我々は、そのような個人が、LM生成出力に遭遇する確率が数百から数千倍にも達するほど、偏見の証拠が広範囲にあることを発見した。
本研究は,言語モデルによる差別的被害から消費者を守るための緊急の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-04-11T05:09:03Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。