論文の概要: Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings
- arxiv url: http://arxiv.org/abs/2506.14997v1
- Date: Tue, 17 Jun 2025 22:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.493986
- Title: Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings
- Title(参考訳): 複数選択設定におけるLLM-Humanミスの定量化のための仮説検証
- Authors: Harbin Hong, Sebastian Caldas, Liu Leqi,
- Abstract要約: 我々は,大規模言語モデル(LLM)と実際の人間の行動の相違を,複数項目のアンケート設定で評価した。
この枠組みを,様々な公的な調査において,人々の意見をシミュレートするための一般的な言語モデルに適用する。
これにより、この言語モデルとテストされた人口との整合性に関する疑問が提起される。
- 参考スコア(独自算出の注目度): 7.284860523651357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) increasingly appear in social science research (e.g., economics and marketing), it becomes crucial to assess how well these models replicate human behavior. In this work, using hypothesis testing, we present a quantitative framework to assess the misalignment between LLM-simulated and actual human behaviors in multiple-choice survey settings. This framework allows us to determine in a principled way whether a specific language model can effectively simulate human opinions, decision-making, and general behaviors represented through multiple-choice options. We applied this framework to a popular language model for simulating people's opinions in various public surveys and found that this model is ill-suited for simulating the tested sub-populations (e.g., across different races, ages, and incomes) for contentious questions. This raises questions about the alignment of this language model with the tested populations, highlighting the need for new practices in using LLMs for social science studies beyond naive simulations of human subjects.
- Abstract(参考訳): 大規模言語モデル(LLM)が社会科学研究(例えば、経済学やマーケティング)にますます現れるにつれて、これらのモデルが人間の行動をいかにうまく再現するかを評価することが重要である。
本研究では, 仮説テストを用いて, LLMシミュレーションと実際の人間の行動の相違を評価するための定量的枠組みを提案する。
このフレームワークにより、特定の言語モデルが、複数の選択肢によって表される人間の意見、意思決定、一般的な振る舞いを効果的にシミュレートできるかどうかを、原則的に決定できる。
このフレームワークを,様々な公的な調査において人々の意見をシミュレートする一般的な言語モデルに適用し,このモデルが競合する質問に対してテストされたサブ人口(人種,年齢,収入など)をシミュレートするのに不適であることを確認した。
このことは、この言語モデルとテスト対象人口との整合性に関する疑問を提起し、人間のナイーブなシミュレーションを超えて、社会科学研究にLLMを使用するための新しいプラクティスの必要性を強調した。
関連論文リスト
- Mixture-of-Personas Language Models for Population Simulation [20.644911871150136]
大規模言語モデル(LLM)は、社会科学研究や機械学習モデルトレーニングにおいて、人為的なデータを増やすことができる。
MoPは文脈混合モデルであり、各コンポーネントは、ペルソナとサブポピュレーションの振る舞いを表す例によって特徴づけられるLMエージェントである。
MoPは柔軟性があり、モデル微調整を必要とせず、ベースモデル間で転送可能である。
論文 参考訳(メタデータ) (2025-04-07T12:43:05Z) - Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility [7.183662547358301]
大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。
いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
論文 参考訳(メタデータ) (2025-03-21T23:25:42Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。
実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。
以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-24T09:02:28Z) - Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。
特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文 参考訳(メタデータ) (2024-03-29T15:58:46Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Using Large Language Models to Simulate Multiple Humans and Replicate
Human Subject Studies [7.696359453385686]
チューリング実験(TE)と呼ばれる新しいタイプの試験を導入する。
TEは、言語モデルの特定の人間の振る舞いのシミュレーションにおいて一貫した歪みを明らかにすることができる。
我々は、異なる言語モデルが、古典的な経済、精神言語、社会心理学実験をいかにうまく再現できるかを比較した。
論文 参考訳(メタデータ) (2022-08-18T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。