論文の概要: ChatGPT vs Social Surveys: Probing the Objective and Subjective Human Society
- arxiv url: http://arxiv.org/abs/2409.02601v1
- Date: Wed, 4 Sep 2024 10:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 19:10:42.897860
- Title: ChatGPT vs Social Surveys: Probing the Objective and Subjective Human Society
- Title(参考訳): ChatGPT vs. ソーシャルサーベイ
- Authors: Muzhi Zhou, Lu Yu, Xiaomin Geng, Lan Luo,
- Abstract要約: 我々はChatGPT-3.5を用いてサンプリングプロセスをシミュレートし、2020年の米国人口から6つの社会経済特性を生んだ。
我々は、GPTの主観的態度を探るため、所得格差やジェンダーの役割に関する質問に対する回答を分析した。
以上の結果から、性別と年齢の一致は、2020年のアメリカにおける実際の人口と一致しているが、人種や教育団体の分布にミスマッチがあることが判明した。
- 参考スコア(独自算出の注目度): 7.281887764378982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extent to which Large Language Models (LLMs) can simulate the data-generating process for social surveys remains unclear. Current research has not thoroughly assessed potential biases in the sociodemographic population represented within the language model's framework. Additionally, the subjective worlds of LLMs often show inconsistencies in how closely their responses match those of groups of human respondents. In this paper, we used ChatGPT-3.5 to simulate the sampling process and generated six socioeconomic characteristics from the 2020 US population. We also analyzed responses to questions about income inequality and gender roles to explore GPT's subjective attitudes. By using repeated random sampling, we created a sampling distribution to identify the parameters of the GPT-generated population and compared these with Census data. Our findings show some alignment in gender and age means with the actual 2020 US population, but we also found mismatches in the distributions of racial and educational groups. Furthermore, there were significant differences between the distribution of GPT's responses and human self-reported attitudes. While the overall point estimates of GPT's income attitudinal responses seem to align with the mean of the population occasionally, their response distributions follow a normal distribution that diverges from human responses. In terms of gender relations, GPT's answers tend to cluster in the most frequently answered category, demonstrating a deterministic pattern. We conclude by emphasizing the distinct design philosophies of LLMs and social surveys: LLMs aim to predict the most suitable answers, while social surveys seek to reveal the heterogeneity among social groups.
- Abstract(参考訳): 大規模言語モデル(LLM)が社会調査のデータ生成過程をシミュレートできる範囲はいまだ不明である。
現在の研究は、言語モデルの枠組みの中で表現される社会デマトグラフィー人口の潜在的なバイアスを十分に評価していない。
加えて、LLMの主観的世界は、その反応が人間の回答者の群とどのように密接な関係を示すかに矛盾することが多い。
本稿では,ChatGPT-3.5を用いてサンプリングプロセスをシミュレートし,2020年の米国人口から6つの社会経済特性を生んだ。
また、GPTの主観的態度を探るため、所得格差やジェンダーの役割に関する質問に対する回答を分析した。
繰り返しランダムサンプリングを用いて,GPT生成集団のパラメータを同定するサンプリング分布を作成し,Censusデータと比較した。
以上の結果から、性別と年齢の一致は、2020年のアメリカにおける実際の人口と一致しているが、人種や教育団体の分布にミスマッチがあることが判明した。
さらに, GPTの反応の分布と自己報告態度には有意な差が認められた。
GPTの所得統計応答の総点推定は、人口の平均と時折一致しているように見えるが、その反応分布は人間の反応から分岐する正規分布に従う。
ジェンダー関係の観点では、GPTの回答は最も頻繁に答えられるカテゴリーに集まり、決定論的パターンを示す傾向がある。
LLMは最も適切な回答を予測することを目的としており、社会調査は社会集団間の異質性を明らかにすることを目指している。
関連論文リスト
- Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts [5.111540255111445]
レースベースの違いは生成したサマリーの約10%に現れ、ジェンダーベースの違いは1%に過ぎなかった。
検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性問題は一般的な脆性問題に起因する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - Evaluating LLMs for Gender Disparities in Notable Persons [0.40964539027092906]
本研究では,事実情報の検索にLarge Language Models (LLMs) を用いることを検討した。
事実的不正確な「ハロゲン化」反応を作り出すことや、全く答えることができないことへの懸念に対処する。
論文 参考訳(メタデータ) (2024-03-14T07:58:27Z) - Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a
Large Language Model Based on Group-Level Demographic Information [15.435605802794408]
大規模言語モデルは、人口統計情報に関連する社会的バイアスを示す。
人口サブグループの意見をエミュレートする「ランダムシリコンサンプリング」を提案する。
言語モデルは、実際のアメリカの世論調査と非常によく似た応答分布を生成できる。
論文 参考訳(メタデータ) (2024-02-28T08:09:14Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Questioning the Survey Responses of Large Language Models [25.14481433176348]
我々は,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイに基づいて,この方法論を批判的に検討する。
まず、モデルの応答は、例えば"A"という文字でラベル付けされた調査応答に対するバイアスの順序付けとラベル付けによって制御される。
第二に、ランダム化された回答順序付けによってこれらの体系的バイアスを調整するとき、ボード全体のモデルが一様ランダムなアンケート応答に向かう傾向にある。
論文 参考訳(メタデータ) (2023-06-13T17:48:27Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Mitigating Face Recognition Bias via Group Adaptive Classifier [53.15616844833305]
この研究は、全てのグループの顔がより平等に表現できる公正な顔表現を学ぶことを目的としている。
我々の研究は、競争精度を維持しながら、人口集団間での顔認識バイアスを軽減することができる。
論文 参考訳(メタデータ) (2020-06-13T06:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。