論文の概要: Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference
- arxiv url: http://arxiv.org/abs/2503.10652v2
- Date: Tue, 13 May 2025 19:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 15:30:05.52907
- Title: Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference
- Title(参考訳): 大規模言語モデルを用いたヒューマンサーベイ応答のシミュレーションと解析:エネルギー状態選好を事例として
- Authors: Han Wang, Jacek Pawlak, Aruna Sivakumar,
- Abstract要約: ステートド・リセプション(SP)調査は、仮説的、潜在的に未来的なシナリオにおいて、個人がどのようにトレードオフを行うかを研究者が理解するのに役立ちます。
本研究では,エネルギー関連SP調査における消費者選択をシミュレートする大規模言語モデル (LLM) について検討した。
- 参考スコア(独自算出の注目度): 4.672157041593765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Survey research plays a crucial role in studies by capturing consumer preferences and informing policy decisions. Stated preference (SP) surveys help researchers understand how individuals make trade-offs in hypothetical, potentially futuristic, scenarios. However, traditional methods are costly, time-consuming, and affected by respondent fatigue and ethical constraints. Large language models (LLMs) have shown remarkable capabilities in generating human-like responses, prompting interest in their use in survey research. This study investigates LLMs for simulating consumer choices in energy-related SP surveys and explores their integration into data collection and analysis workflows. Test scenarios were designed to assess the simulation performance of several LLMs (LLaMA 3.1, Mistral, GPT-3.5, DeepSeek-R1) at individual and aggregated levels, considering prompt design, in-context learning (ICL), chain-of-thought (CoT) reasoning, model types, integration with traditional choice models, and potential biases. While LLMs achieve accuracy above random guessing, performance remains insufficient for practical simulation use. Cloud-based LLMs do not consistently outperform smaller local models. DeepSeek-R1 achieves the highest average accuracy (77%) and outperforms non-reasoning LLMs in accuracy, factor identification, and choice distribution alignment. Previous SP choices are the most effective input; longer prompts with more factors reduce accuracy. Mixed logit models can support LLM prompt refinement. Reasoning LLMs show potential in data analysis by indicating factor significance, offering a qualitative complement to statistical models. Despite limitations, pre-trained LLMs offer scalability and require minimal historical data. Future work should refine prompts, further explore CoT reasoning, and investigate fine-tuning techniques.
- Abstract(参考訳): 調査研究は消費者の嗜好を捉え、政策決定を伝えることで研究において重要な役割を担っている。
ステートド・リセプション(SP)調査は、仮説的、潜在的に未来的なシナリオにおいて、個人がどのようにトレードオフを行うかを研究者が理解するのに役立ちます。
しかしながら、従来の手法はコストが高く、時間がかかり、応答性疲労や倫理的制約の影響を受けます。
大規模言語モデル(LLM)は、人間のような応答を生成する際、顕著な能力を示し、調査研究における彼らの使用への関心を喚起している。
本研究では,エネルギー関連SP調査における消費者選択をシミュレートするためのLCMについて検討し,データ収集と分析のワークフローへの統合について検討する。
テストシナリオは、個別および集約レベルでの複数のLCM(LLaMA 3.1、Mistral、GPT-3.5、DeepSeek-R1)のシミュレーション性能を評価するために設計され、迅速な設計、文脈内学習(ICL)、チェーン・オブ・シンク(CoT)推論、モデルタイプ、従来の選択モデルとの統合、潜在的なバイアスを考慮していた。
LLMはランダムな推測よりも精度が高いが、実際のシミュレーションでは性能が不十分である。
クラウドベースのLLMは、より小さなローカルモデルよりも一貫して優れているわけではない。
DeepSeek-R1は高い平均精度(77%)を達成し、非共振LDMの精度、因子同定、選択分布アライメントに優れる。
以前のSP選択は最も効果的な入力であり、より多くの要因を持つより長いプロンプトは精度を低下させる。
混合ロジットモデルは、LSMのプロンプト改善をサポートすることができる。
推論 LLM は、統計モデルに定性的な補完を与える因子の重要度を示すことによって、データ解析のポテンシャルを示す。
制限があるにもかかわらず、事前訓練されたLLMはスケーラビリティを提供し、最小の履歴データを必要とする。
今後の作業は、プロンプトを洗練し、CoT推論をさらに探求し、微調整技術を調べるべきである。
関連論文リスト
- Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data [0.0]
大言語モデル(LLM)を使用して、調査質問に答える仮想人口を作成します。
GPT-4o, GPT-3.5, Claude 3.5-Sonnet, そしてLlama と Mistral モデルの性能を従来のランダムフォレストアルゴリズムと比較して評価した。
論文 参考訳(メタデータ) (2025-03-11T16:27:20Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。