論文の概要: ChatGPT vs Social Surveys: Probing Objective and Subjective Silicon Population
- arxiv url: http://arxiv.org/abs/2409.02601v3
- Date: Thu, 06 Mar 2025 03:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:06.287718
- Title: ChatGPT vs Social Surveys: Probing Objective and Subjective Silicon Population
- Title(参考訳): ChatGPT vs. Social Surveys: Probing Objective and Subjective Silicon Population
- Authors: Muzhi Zhou, Lu Yu, Xiaomin Geng, Lan Luo,
- Abstract要約: 大規模言語モデル(LLM)は、社会調査における人間の反応をシミュレートし、信頼できる予測を生成する可能性を秘めている。
GPTにより生成したシリコン試料の集団パラメータを同定するサンプリング分布を生成するために,繰り返しサンプリングを用いる。
以上の結果から、GPTの人口分布は、性別と平均年齢の点で、2020年の米国人口と一致していることがわかった。
GPTの立位スコアの点推定は極めて矛盾しており、特定のイデオロギーに対する明確な傾きを示していない。
- 参考スコア(独自算出の注目度): 7.281887764378982
- License:
- Abstract: Recent discussions about Large Language Models (LLMs) indicate that they have the potential to simulate human responses in social surveys and generate reliable predictions, such as those found in political polls. However, the existing findings are highly inconsistent, leaving us uncertain about the population characteristics of data generated by LLMs. In this paper, we employ repeated random sampling to create sampling distributions that identify the population parameters of silicon samples generated by GPT. Our findings show that GPT's demographic distribution aligns with the 2020 U.S. population in terms of gender and average age. However, GPT significantly overestimates the representation of the Black population and individuals with higher levels of education, even when it possesses accurate knowledge. Furthermore, GPT's point estimates for attitudinal scores are highly inconsistent and show no clear inclination toward any particular ideology. The sample response distributions exhibit a normal pattern that diverges significantly from those of human respondents. Consistent with previous studies, we find that GPT's answers are more deterministic than those of humans. We conclude by discussing the concerning implications of this biased and deterministic silicon population for making inferences about real-world populations.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) に関する議論は、社会調査における人間の反応をシミュレートし、政治的世論調査に見られるような信頼できる予測を生成する可能性を示唆している。
しかし, 既往の知見は極めて矛盾しており, LLM が生成するデータの個体群特性について不確実性を残している。
本稿では, GPTにより生成されたシリコン試料の集団パラメータを同定するサンプリング分布を生成するために, 繰り返しランダムサンプリングを用いる。
以上の結果から、GPTの人口分布は、性別と平均年齢の点で、2020年の米国人口と一致していることがわかった。
しかし、GPTは、たとえ正確な知識を持っていたとしても、黒人と教育水準の高い個人の表現を著しく過大評価している。
さらに、GPTの直交スコアの点推定は極めて矛盾しており、特定のイデオロギーに対する明確な傾きを示していない。
サンプル応答分布は、ヒトの回答者と大きく異なる正常なパターンを示す。
前回の研究では、GPTの回答は人間よりも決定論的であることが判明した。
我々は、この偏りと決定論的シリコン人口が現実世界の人口に関する推論に与える影響について論じる。
関連論文リスト
- Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts [5.111540255111445]
レースベースの違いは生成したサマリーの約10%に現れ、ジェンダーベースの違いは1%に過ぎなかった。
検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性問題は一般的な脆性問題に起因する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - Evaluating LLMs for Gender Disparities in Notable Persons [0.40964539027092906]
本研究では,事実情報の検索にLarge Language Models (LLMs) を用いることを検討した。
事実的不正確な「ハロゲン化」反応を作り出すことや、全く答えることができないことへの懸念に対処する。
論文 参考訳(メタデータ) (2024-03-14T07:58:27Z) - Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a
Large Language Model Based on Group-Level Demographic Information [15.435605802794408]
大規模言語モデルは、人口統計情報に関連する社会的バイアスを示す。
人口サブグループの意見をエミュレートする「ランダムシリコンサンプリング」を提案する。
言語モデルは、実際のアメリカの世論調査と非常によく似た応答分布を生成できる。
論文 参考訳(メタデータ) (2024-02-28T08:09:14Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Questioning the Survey Responses of Large Language Models [25.14481433176348]
我々は,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイに基づいて,この方法論を批判的に検討する。
まず、モデルの応答は、例えば"A"という文字でラベル付けされた調査応答に対するバイアスの順序付けとラベル付けによって制御される。
第二に、ランダム化された回答順序付けによってこれらの体系的バイアスを調整するとき、ボード全体のモデルが一様ランダムなアンケート応答に向かう傾向にある。
論文 参考訳(メタデータ) (2023-06-13T17:48:27Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Mitigating Face Recognition Bias via Group Adaptive Classifier [53.15616844833305]
この研究は、全てのグループの顔がより平等に表現できる公正な顔表現を学ぶことを目的としている。
我々の研究は、競争精度を維持しながら、人口集団間での顔認識バイアスを軽減することができる。
論文 参考訳(メタデータ) (2020-06-13T06:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。