論文の概要: Which Demographics do LLMs Default to During Annotation?
- arxiv url: http://arxiv.org/abs/2410.08820v1
- Date: Mon, 14 Oct 2024 14:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:45:38.211230
- Title: Which Demographics do LLMs Default to During Annotation?
- Title(参考訳): LLMのアノテーションのデフォルトはどのデモグラフィックですか?
- Authors: Christopher Bagdon, Aidan Combs, Lynn Greschner, Roman Klinger, Jiahui Li, Sean Papay, Nadine Probol, Yarik Menchaca Resendiz, Johannes Schäfer, Aswathy Velutharambath, Sabine Weber, Amelie Wührl,
- Abstract要約: データアノテーションに大規模言語モデル(LLM)を用いることで、2つの研究方向が開発された。
我々は,ヒトアノテータLLMのどの属性が本質的に模倣されているかを評価する。
性別、人種、年齢に関連する顕著な影響を、人口動態の促進において観察する。
- 参考スコア(独自算出の注目度): 9.190535758368567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Demographics and cultural background of annotators influence the labels they assign in text annotation -- for instance, an elderly woman might find it offensive to read a message addressed to a "bro", but a male teenager might find it appropriate. It is therefore important to acknowledge label variations to not under-represent members of a society. Two research directions developed out of this observation in the context of using large language models (LLM) for data annotations, namely (1) studying biases and inherent knowledge of LLMs and (2) injecting diversity in the output by manipulating the prompt with demographic information. We combine these two strands of research and ask the question to which demographics an LLM resorts to when no demographics is given. To answer this question, we evaluate which attributes of human annotators LLMs inherently mimic. Furthermore, we compare non-demographic conditioned prompts and placebo-conditioned prompts (e.g., "you are an annotator who lives in house number 5") to demographics-conditioned prompts ("You are a 45 year old man and an expert on politeness annotation. How do you rate {instance}"). We study these questions for politeness and offensiveness annotations on the POPQUORN data set, a corpus created in a controlled manner to investigate human label variations based on demographics which has not been used for LLM-based analyses so far. We observe notable influences related to gender, race, and age in demographic prompting, which contrasts with previous studies that found no such effects.
- Abstract(参考訳): 例えば、年配の女性が「兄弟」に宛てたメッセージを読むのを不快に感じるかもしれないが、男性の10代の若者はそれを適切だと感じるかもしれない。
したがって、ラベルのバリエーションが社会の過小評価されていないことを認識することが重要である。
2つの研究方向は,データアノテーションに大規模言語モデル (LLM) を用いることで,(1) LLMのバイアスや固有知識の研究,(2) 人口統計情報でプロンプトを操作することによって出力に多様性を注入すること,の2点から生まれた。
これらの2つの研究を組み合わせ、LLMがどの人口層を、いつ人口層が与えられないのかを問う。
この問いに答えるために、人間のアノテータLLMのどの属性が本質的に模倣されているかを評価する。
また、非デマトグラフィー条件のプロンプトとプラセボ条件のプロンプト(例:5番住まいのアノテーター)と人口動態のプロンプト(例:45歳、礼儀正しいアノテーションの専門家)を比較した。
これまでにLLMに基づく分析に使用されていない人口統計に基づく人名ラベルの変動を調べるために,制御された方法で作成したコーパスであるPOPQUORNデータセットの丁寧さと攻撃性アノテーションについて検討した。
我々は、性別、人種、年齢に関連する顕著な影響を、従来の研究と対照的に観察し、そのような影響は見つからなかった。
関連論文リスト
- Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Large language models should not replace human participants because they can misportray and flatten identity groups [36.36009232890876]
我々は、現在のLLMのトレーニング方法には2つの固有の制限があることを示します。
我々は、LCMが人口集団の表現を誤解し、フラットにする可能性がある理由を分析的に論じる。
また、アイデンティティープロンプトがアイデンティティーを不可欠なものにする方法について、第3の制限についても論じる。
論文 参考訳(メタデータ) (2024-02-02T21:21:06Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - When Do Annotator Demographics Matter? Measuring the Influence of
Annotator Demographics with the POPQUORN Dataset [19.591722115337564]
その結果,アノテータの背景は判断に重要な役割を担っていることが明らかとなった。
NLP(例えば、教育)ではこれまで考慮されていなかった背景は意味があり、考慮すべきである。
本研究は,アノテータの背景を把握し,人口統計学的にバランスのとれた群集労働者のプールからラベルを収集することが,データセットのバイアスを軽減する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-06-12T02:26:00Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。