論文の概要: ChatGPT is not A Man but Das Man: Representativeness and Structural Consistency of Silicon Samples Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2507.02919v1
- Date: Wed, 25 Jun 2025 12:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.520965
- Title: ChatGPT is not A Man but Das Man: Representativeness and Structural Consistency of Silicon Samples Generated by Large Language Models
- Title(参考訳): ChatGPTは男ではなく男だ:大規模言語モデルによるシリコンサンプルの表現性と構造的整合性
- Authors: Dai Li, Linzhuo Li, Huilian Sophie Qiu,
- Abstract要約: 大きな言語モデル(LLM)は、人間の意見をシミュレートするための「シリコンサンプル」として提案されている。
本研究は, LLMが集団レベルでの見解を誤って表現する可能性があるとして, この概念を考察する。
- 参考スコア(独自算出の注目度): 4.066868402300836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) in the form of chatbots like ChatGPT and Llama are increasingly proposed as "silicon samples" for simulating human opinions. This study examines this notion, arguing that LLMs may misrepresent population-level opinions. We identify two fundamental challenges: a failure in structural consistency, where response accuracy doesn't hold across demographic aggregation levels, and homogenization, an underrepresentation of minority opinions. To investigate these, we prompted ChatGPT (GPT-4) and Meta's Llama 3.1 series (8B, 70B, 405B) with questions on abortion and unauthorized immigration from the American National Election Studies (ANES) 2020. Our findings reveal significant structural inconsistencies and severe homogenization in LLM responses compared to human data. We propose an "accuracy-optimization hypothesis," suggesting homogenization stems from prioritizing modal responses. These issues challenge the validity of using LLMs, especially chatbots AI, as direct substitutes for human survey data, potentially reinforcing stereotypes and misinforming policy.
- Abstract(参考訳): ChatGPTやLlamaのようなチャットボットの形をした大規模言語モデル(LLM)は、人間の意見をシミュレートするための「シリコンサンプル」として、ますます提案されている。
本研究は, LLMが集団レベルでの見解を誤って表現する可能性があるとして, この概念を考察する。
構造的整合性の失敗、応答の正確さが人口統計の集約レベルにまたがらないこと、および少数派の意見の過小評価である均質化の2つの基本的な課題を特定する。
そこで我々はChatGPT (GPT-4) とMeta's Llama 3.1シリーズ (8B, 70B, 405B) に中絶と米国選挙研究会(ANES) 2020からの不法移民について質問した。
以上の結果より, LLM応答における構造的不整合と高度均質化の有意な相違が示唆された。
本稿では,モーダル応答の優先順位付けに起因した同質化を示唆する「精度最適化仮説」を提案する。
これらの問題は、LLM、特にチャットボットAIを人間の調査データの直接的な代用として使用することの妥当性に挑戦し、ステレオタイプと誤動作ポリシーを補強する可能性がある。
関連論文リスト
- Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings [7.284860523651357]
我々は,大規模言語モデル(LLM)と実際の人間の行動の相違を,複数項目のアンケート設定で評価した。
この枠組みを,様々な公的な調査において,人々の意見をシミュレートするための一般的な言語モデルに適用する。
これにより、この言語モデルとテストされた人口との整合性に関する疑問が提起される。
論文 参考訳(メタデータ) (2025-06-17T22:04:55Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - ChatGPT vs Social Surveys: Probing Objective and Subjective Silicon Population [7.281887764378982]
大規模言語モデル(LLM)は、社会調査における人間の反応をシミュレートし、信頼できる予測を生成する可能性を秘めている。
GPTにより生成したシリコン試料の集団パラメータを同定するサンプリング分布を生成するために,繰り返しサンプリングを用いる。
以上の結果から、GPTの人口分布は、性別と平均年齢の点で、2020年の米国人口と一致していることがわかった。
GPTの立位スコアの点推定は極めて矛盾しており、特定のイデオロギーに対する明確な傾きを示していない。
論文 参考訳(メタデータ) (2024-09-04T10:33:37Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Demonstrations of the Potential of AI-based Political Issue Polling [0.0]
そこで我々は,ChatGPTから人間ライクなサーベイ応答を抽出するための迅速なエンジニアリング手法を開発した。
我々は大規模な実験を行い、人間の調査よりもはるかに低コストで何千ものシミュレーションされた応答を問い合わせる。
ChatGPTは,様々な政策問題について,世論の平均レベルと分布の両方を予測するのに有効である。
しかし、人口レベルでの違いを予想することは成功していない。
論文 参考訳(メタデータ) (2023-07-10T12:17:15Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。
我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。
我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文 参考訳(メタデータ) (2023-03-30T17:17:08Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。