論文の概要: Evaluating Local and Cloud-Based Large Language Models for Simulating Consumer Choices in Energy Stated Preference Surveys
- arxiv url: http://arxiv.org/abs/2503.10652v1
- Date: Fri, 07 Mar 2025 10:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 06:38:30.703675
- Title: Evaluating Local and Cloud-Based Large Language Models for Simulating Consumer Choices in Energy Stated Preference Surveys
- Title(参考訳): エネルギー状態優先調査における消費者選択シミュレーションのためのローカルおよびクラウドベース大規模言語モデルの評価
- Authors: Han Wang, Jacek Pawlak, Aruna Sivakumar,
- Abstract要約: 本研究では、エネルギー関連SPサーベイにおける消費者選択をシミュレートする大規模言語モデルの能力について検討する。
その結果, LLMの平均精度は48%まで向上するが, 実用化には不十分であることが示唆された。
従来のSP選択が最も効果的な入力因子であるのに対して、因子の異なる長いプロンプトは精度を低下させる可能性がある。
- 参考スコア(独自算出の注目度): 4.672157041593765
- License:
- Abstract: Survey research is essential in energy demand studies for capturing consumer preferences and informing policy decisions. Stated preference (SP) surveys, in particular, analyse how individuals make trade-offs in hypothetical scenarios. However, traditional survey methods are costly, time-consuming, and affected by biases and respondent fatigue. Large language models (LLMs) have emerged as a potential tool to address these challenges by generating human-like textual responses. This study investigates the ability of LLMs to simulate consumer choices in energy-related SP surveys. A series of test scenarios evaluated the simulation performance of LLMs at both individual and aggregated levels, considering factors in the prompt, in-context learning (ICL), chain-of-thought (CoT) reasoning, the comparison between local and cloud-based LLMs, integration with traditional choice models, and potential biases. Results indicate that while LLMs achieve an average accuracy of up to 48%, surpassing random guessing, their performance remains insufficient for practical application. Local and cloud-based LLMs perform similarly in simulation accuracy but exhibit differences in adherence to prompt requirements and susceptibility to social desirability biases. Findings suggest that previous SP choices are the most effective input factor, while longer prompts with varied factor formats may reduce accuracy. Furthermore, the traditional mixed logit choice model outperforms LLMs and provides insights for refining LLM prompts. Despite their limitations, LLMs provide scalability and efficiency advantages, requiring minimal historical data compared to traditional survey methods. Future research should refine prompt structures, further investigate CoT reasoning, and explore fine-tuning techniques to improve LLM-based energy survey simulations.
- Abstract(参考訳): 消費者の嗜好を捉え、政策決定を下すためのエネルギー需要研究には調査研究が不可欠である。
ステート優先 (SP) 調査は、特に、仮説上のシナリオにおいて個人がどのようにトレードオフを行うかを分析する。
しかし、従来の調査手法は費用がかかり、時間がかかり、バイアスや疲労に影響を受ける。
大きな言語モデル(LLM)は、人間のようなテキスト応答を生成することによって、これらの課題に対処する潜在的なツールとして登場した。
本研究では,エネルギー関連SPサーベイにおけるLCMの消費者選択をシミュレートする能力について検討した。
一連のテストシナリオは、インコンテキスト学習(ICL)、チェーン・オブ・ソート(CoT)推論、ローカルとクラウドベースのLCMの比較、従来の選択モデルとの統合、潜在的なバイアスなど、個人レベルと集約レベルのLCMのシミュレーション性能を評価した。
その結果, LLM の平均精度は 48% であり, ランダムな推定よりも高いが, 実用化には不十分であることが示唆された。
ローカルおよびクラウドベースのLCMも同様にシミュレーション精度で実行するが、要求の迅速化と社会的望ましくないバイアスへの感受性の相違を示す。
従来のSP選択が最も効果的な入力因子であるのに対して、因子の異なる長いプロンプトは精度を低下させる可能性がある。
さらに、従来の混合ロジット選択モデルはLLMよりも優れており、LLMプロンプトの精製のための洞察を提供する。
それらの制限にもかかわらず、LLMはスケーラビリティと効率性を提供し、従来の調査手法に比べて最小限の履歴データを必要とする。
今後の研究は、急速構造を洗練し、CoT推論をさらに研究し、LLMに基づくエネルギー調査シミュレーションを改善するための微調整技術を探るべきである。
関連論文リスト
- Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。
人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。
多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文 参考訳(メタデータ) (2025-01-12T22:49:32Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。