論文の概要: Can Large Language Models Simulate Human Responses? A Case Study of Stated Preference Experiments in the Context of Heating-related Choices
- arxiv url: http://arxiv.org/abs/2503.10652v3
- Date: Fri, 22 Aug 2025 17:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 14:39:45.149617
- Title: Can Large Language Models Simulate Human Responses? A Case Study of Stated Preference Experiments in the Context of Heating-related Choices
- Title(参考訳): 大規模言語モデルは人間の反応をシミュレートできるか? : 暖房関連選択の文脈における状態選好実験を事例として
- Authors: Han Wang, Jacek Pawlak, Aruna Sivakumar,
- Abstract要約: ステートド・リセプション(SP)調査は、個人が仮説的、そして未来的シナリオでトレードオフを行う方法を研究するための重要な方法である。
高価で時間を要する傾向があり、応答性疲労や倫理的制約の影響を受けやすい。
本研究では,エネルギー関連調査における消費者選択をシミュレートするための大規模言語モデル (LLM) の利用について検討した。
- 参考スコア(独自算出の注目度): 2.2582258282563763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stated preference (SP) surveys are a key method to research how individuals make trade-offs in hypothetical, also futuristic, scenarios. In energy context this includes key decarbonisation enablement contexts, such as low-carbon technologies, distributed renewable energy generation, and demand-side response [1,2]. However, they tend to be costly, time-consuming, and can be affected by respondent fatigue and ethical constraints. Large language models (LLMs) have demonstrated remarkable capabilities in generating human-like textual responses, prompting growing interest in their application to survey research. This study investigates the use of LLMs to simulate consumer choices in energy-related SP surveys and explores their integration into data analysis workflows. A series of test scenarios were designed to systematically assess the simulation performance of several LLMs (LLaMA 3.1, Mistral, GPT-3.5 and DeepSeek-R1) at both individual and aggregated levels, considering contexts factors such as prompt design, in-context learning (ICL), chain-of-thought (CoT) reasoning, LLM types, integration with traditional choice models, and potential biases. Cloud-based LLMs do not consistently outperform smaller local models. In this study, the reasoning model DeepSeek-R1 achieves the highest average accuracy (77%) and outperforms non-reasoning LLMs in accuracy, factor identification, and choice distribution alignment. Across models, systematic biases are observed against the gas boiler and no-retrofit options, with a preference for more energy-efficient alternatives. The findings suggest that previous SP choices are the most effective input factor, while longer prompts with additional factors and varied formats can cause LLMs to lose focus, reducing accuracy.
- Abstract(参考訳): ステートド・リセプション(SP)調査は、個人が仮説的、そして未来的シナリオでトレードオフを行う方法を研究するための重要な方法である。
エネルギーの文脈では、これは、低炭素技術、分散再生可能エネルギー生成、需要側応答[1,2]のような重要な脱炭の可能なコンテキストを含む。
しかし、それらは高価で時間を要する傾向があり、応答性疲労や倫理的制約の影響を受けやすい。
大規模言語モデル(LLM)は、人間のようなテキスト応答を生成する際、顕著な能力を示し、研究への関心が高まっている。
本研究では、エネルギー関連SPサーベイにおける消費者選択をシミュレートするためのLCMの使用について検討し、それらのデータ分析ワークフローへの統合について検討する。
いくつかのLCM(LLaMA 3.1、Mistral、GPT-3.5、DeepSeek-R1)のシミュレーション性能を個別レベルと集約レベルで体系的に評価するために一連のテストシナリオが設計された。
クラウドベースのLLMは、より小さなローカルモデルよりも一貫して優れているわけではない。
本研究では,推理モデルDeepSeek-R1が平均精度(77%)を達成し,非共振LDMを精度,因子同定,選択分布アライメントで上回った。
モデル全体では、よりエネルギー効率のよい代替品を好むため、ガスボイラーや非再適合オプションに対して系統的なバイアスが観測される。
以上の結果から,従来のSP選択が最も有効な入力因子であるのに対し,追加要因やフォーマットの多様さがLLMの焦点を低下させ,精度を低下させる可能性が示唆された。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Can Large Language Models Trigger a Paradigm Shift in Travel Behavior Modeling? Experiences with Modeling Travel Satisfaction [2.2974830861901414]
本研究では,上海の世帯調査から得られた旅行満足度データを用いて,大規模言語モデルと人間の行動の相違点と原因を特定する。
ゼロショットLLMは, 動作の誤りを呈し, 予測精度が比較的低いことが判明した。
小型のサンプルを用いた旅行行動モデルに適用可能なLLMに基づくモデリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T09:11:58Z) - Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data [0.0]
大言語モデル(LLM)を使用して、調査質問に答える仮想人口を作成します。
GPT-4o, GPT-3.5, Claude 3.5-Sonnet, そしてLlama と Mistral モデルの性能を従来のランダムフォレストアルゴリズムと比較して評価した。
論文 参考訳(メタデータ) (2025-03-11T16:27:20Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。