論文の概要: Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data
- arxiv url: http://arxiv.org/abs/2503.16498v1
- Date: Tue, 11 Mar 2025 16:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 08:01:24.105617
- Title: Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data
- Title(参考訳): Llms, 仮想ユーザ, バイアス: 人間のデータなしではどんな質問でも予測できる
- Authors: Enzo Sinacola, Arnault Pachot, Thierry Petit,
- Abstract要約: 大言語モデル(LLM)を使用して、調査質問に答える仮想人口を作成します。
GPT-4o, GPT-3.5, Claude 3.5-Sonnet, そしてLlama と Mistral モデルの性能を従来のランダムフォレストアルゴリズムと比較して評価した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) offer a promising alternative to traditional survey methods, potentially enhancing efficiency and reducing costs. In this study, we use LLMs to create virtual populations that answer survey questions, enabling us to predict outcomes comparable to human responses. We evaluate several LLMs-including GPT-4o, GPT-3.5, Claude 3.5-Sonnet, and versions of the Llama and Mistral models-comparing their performance to that of a traditional Random Forests algorithm using demographic data from the World Values Survey (WVS). LLMs demonstrate competitive performance overall, with the significant advantage of requiring no additional training data. However, they exhibit biases when predicting responses for certain religious and population groups, underperforming in these areas. On the other hand, Random Forests demonstrate stronger performance than LLMs when trained with sufficient data. We observe that removing censorship mechanisms from LLMs significantly improves predictive accuracy, particularly for underrepresented demographic segments where censored models struggle. These findings highlight the importance of addressing biases and reconsidering censorship approaches in LLMs to enhance their reliability and fairness in public opinion research.
- Abstract(参考訳): 大きな言語モデル(LLM)は、従来の調査手法に代わる有望な代替手段を提供し、効率性とコスト削減の可能性を秘めている。
本研究では,LLMを用いて調査質問に答える仮想人口を作成し,人間の反応に匹敵する結果を予測する。
GPT-4o, GPT-3.5, Claude 3.5-Sonnet, およびLlama と Mistral モデルの性能を, WVS (World Values Survey) の人口統計データを用いて従来のランダムフォレストアルゴリズムと比較した。
LLMは総合的に競争性能を示しており、追加のトレーニングデータを必要としないという大きな利点がある。
しかし、特定の宗教集団や人口集団の反応を予測する際に偏見を呈し、これらの地域ではパフォーマンスが劣っている。
一方、ランダムフォレストは十分なデータでトレーニングした場合、LLMよりも強い性能を示す。
LLMからの検閲機構の除去は予測精度を著しく向上させる。
これらの知見は、世論調査における信頼性と公正性を高めるために、LLMにおける偏見に対処し、検閲アプローチを再考することの重要性を強調している。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion [45.84205238554709]
我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。
我々は,LSM GPT-3.5に対して,各回答者の投票選択を予測し,これらの予測を調査に基づく推定と比較する。
GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。
論文 参考訳(メタデータ) (2024-07-11T14:52:18Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Can Large Language Models Capture Public Opinion about Global Warming?
An Empirical Assessment of Algorithmic Fidelity and Bias [0.0]
大規模言語モデル(LLM)は、人間の知覚や行動をエミュレートすることで、社会科学研究においてその可能性を実証している。
本研究は,LLMのアルゴリズム的忠実度と偏りを,全国的に代表される2つの気候変動調査を用いて評価する。
論文 参考訳(メタデータ) (2023-11-01T01:32:59Z) - Prevalence and prevention of large language model use in crowd work [11.554258761785512]
大規模言語モデル (LLM) の使用は, 集団作業者の間で広く普及していることを示す。
目標緩和戦略は, LLM の使用量を大幅に削減するが, 排除はしない。
論文 参考訳(メタデータ) (2023-10-24T09:52:09Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。