論文の概要: Large language models cannot replace human participants because they
cannot portray identity groups
- arxiv url: http://arxiv.org/abs/2402.01908v1
- Date: Fri, 2 Feb 2024 21:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:24:41.316029
- Title: Large language models cannot replace human participants because they
cannot portray identity groups
- Title(参考訳): 大きな言語モデルは、アイデンティティグループを描写できないため、人間の参加者を置き換えることができない
- Authors: Angelina Wang and Jamie Morgenstern and John P. Dickerson
- Abstract要約: 我々は,大きな言語モデル (LLM) は,人口集団の表現の誤りとフラット化の両方を負うと論じている。
アイデンティティーがアイデンティティーを不可欠なものにする方法について、第3の考察について論じる。
全体としては、LLMが課題に関連のある人物を置き換えることを意図したユースケースに注意を喚起する。
- 参考スコア(独自算出の注目度): 40.865099955752825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasing in capability and popularity,
propelling their application in new domains -- including as replacements for
human participants in computational social science, user testing, annotation
tasks, and more. Traditionally, in all of these settings survey distributors
are careful to find representative samples of the human population to ensure
the validity of their results and understand potential demographic differences.
This means in order to be a suitable replacement, LLMs will need to be able to
capture the influence of positionality (i.e., relevance of social identities
like gender and race). However, we show that there are two inherent limitations
in the way current LLMs are trained that prevent this. We argue analytically
for why LLMs are doomed to both misportray and flatten the representations of
demographic groups, then empirically show this to be true on 4 LLMs through a
series of human studies with 3200 participants across 16 demographic
identities. We also discuss a third consideration about how identity prompts
can essentialize identities. Throughout, we connect each of these limitations
to a pernicious history that shows why each is harmful for marginalized
demographic groups. Overall, we urge caution in use cases where LLMs are
intended to replace human participants whose identities are relevant to the
task at hand. At the same time, in cases where the goal is to supplement rather
than replace (e.g., pilot studies), we provide empirically-better
inference-time techniques to reduce, but not remove, these harms.
- Abstract(参考訳): 大規模言語モデル(llm)は、能力と人気が高まっており、計算社会科学における人間の参加者の代替、ユーザテスト、アノテーションタスクなど、新たなドメインでアプリケーションを推進している。
伝統的に、これらすべてのセッティング調査では、人為的なサンプルを見つけ、結果の妥当性を確認し、潜在的な人口統計差を理解するために注意が必要である。
このことは、適切な代替となるためには、LLMは位置性(性別や人種などの社会的アイデンティティの関連性)の影響を捉える必要があることを意味する。
しかしながら、現在のllmのトレーニング方法には、2つの固有の制限があることを示します。
我々は、LLMが人口集団の表現を不適切なものにし、フラットにする理由を分析的に論じ、それを16の人口集団の3200人の参加者による一連の研究を通して4つのLLMで実証的に示す。
また、アイデンティティープロンプトがアイデンティティーを不可欠なものにする方法についても論じる。
全体として、これらの制限を、それぞれがマージン化された人口集団に有害な理由を示す有害な歴史に結びつけています。
全体としては、LLMが課題に関連のある人物を置き換えることを意図したユースケースに注意を喚起する。
同時に、その目的が置き換えるよりも補うことにある場合(例えばパイロットスタディ)、我々は経験的にベターな推論時間技術を提供して、削減するが取り除くことはない。
関連論文リスト
- How should the advent of large language models affect the practice of
science? [51.62881233954798]
大規模言語モデルの出現は科学の実践にどのように影響を与えるべきか?
我々は4つの科学者グループを招待し、この質問を反映し、彼らの見解を共有し、議論をおこなった。
論文 参考訳(メタデータ) (2023-12-05T10:45:12Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。