Fugu-MT 論文翻訳(概要): Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference

論文の概要: Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference

arxiv url: http://arxiv.org/abs/2503.10652v2
Date: Tue, 13 May 2025 19:38:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-15 15:30:05.52907
Title: Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference
Title（参考訳）: 大規模言語モデルを用いたヒューマンサーベイ応答のシミュレーションと解析:エネルギー状態選好を事例として
Authors: Han Wang, Jacek Pawlak, Aruna Sivakumar,
Abstract要約: ステートド・リセプション(SP)調査は、仮説的、潜在的に未来的なシナリオにおいて、個人がどのようにトレードオフを行うかを研究者が理解するのに役立ちます。本研究では,エネルギー関連SP調査における消費者選択をシミュレートする大規模言語モデル (LLM) について検討した。
参考スコア（独自算出の注目度）: 4.672157041593765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Survey research plays a crucial role in studies by capturing consumer preferences and informing policy decisions. Stated preference (SP) surveys help researchers understand how individuals make trade-offs in hypothetical, potentially futuristic, scenarios. However, traditional methods are costly, time-consuming, and affected by respondent fatigue and ethical constraints. Large language models (LLMs) have shown remarkable capabilities in generating human-like responses, prompting interest in their use in survey research. This study investigates LLMs for simulating consumer choices in energy-related SP surveys and explores their integration into data collection and analysis workflows. Test scenarios were designed to assess the simulation performance of several LLMs (LLaMA 3.1, Mistral, GPT-3.5, DeepSeek-R1) at individual and aggregated levels, considering prompt design, in-context learning (ICL), chain-of-thought (CoT) reasoning, model types, integration with traditional choice models, and potential biases. While LLMs achieve accuracy above random guessing, performance remains insufficient for practical simulation use. Cloud-based LLMs do not consistently outperform smaller local models. DeepSeek-R1 achieves the highest average accuracy (77%) and outperforms non-reasoning LLMs in accuracy, factor identification, and choice distribution alignment. Previous SP choices are the most effective input; longer prompts with more factors reduce accuracy. Mixed logit models can support LLM prompt refinement. Reasoning LLMs show potential in data analysis by indicating factor significance, offering a qualitative complement to statistical models. Despite limitations, pre-trained LLMs offer scalability and require minimal historical data. Future work should refine prompts, further explore CoT reasoning, and investigate fine-tuning techniques.
Abstract（参考訳）: 調査研究は消費者の嗜好を捉え、政策決定を伝えることで研究において重要な役割を担っている。ステートド・リセプション(SP)調査は、仮説的、潜在的に未来的なシナリオにおいて、個人がどのようにトレードオフを行うかを研究者が理解するのに役立ちます。しかしながら、従来の手法はコストが高く、時間がかかり、応答性疲労や倫理的制約の影響を受けます。大規模言語モデル(LLM)は、人間のような応答を生成する際、顕著な能力を示し、調査研究における彼らの使用への関心を喚起している。本研究では,エネルギー関連SP調査における消費者選択をシミュレートするためのLCMについて検討し,データ収集と分析のワークフローへの統合について検討する。テストシナリオは、個別および集約レベルでの複数のLCM(LLaMA 3.1、Mistral、GPT-3.5、DeepSeek-R1)のシミュレーション性能を評価するために設計され、迅速な設計、文脈内学習(ICL)、チェーン・オブ・シンク(CoT)推論、モデルタイプ、従来の選択モデルとの統合、潜在的なバイアスを考慮していた。 LLMはランダムな推測よりも精度が高いが、実際のシミュレーションでは性能が不十分である。クラウドベースのLLMは、より小さなローカルモデルよりも一貫して優れているわけではない。 DeepSeek-R1は高い平均精度(77%)を達成し、非共振LDMの精度、因子同定、選択分布アライメントに優れる。以前のSP選択は最も効果的な入力であり、より多くの要因を持つより長いプロンプトは精度を低下させる。混合ロジットモデルは、LSMのプロンプト改善をサポートすることができる。推論 LLM は、統計モデルに定性的な補完を与える因子の重要度を示すことによって、データ解析のポテンシャルを示す。制限があるにもかかわらず、事前訓練されたLLMはスケーラビリティを提供し、最小の履歴データを必要とする。今後の作業は、プロンプトを洗練し、CoT推論をさらに探求し、微調整技術を調べるべきである。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Can Large Language Models Trigger a Paradigm Shift in Travel Behavior Modeling? Experiences with Modeling Travel Satisfaction [2.2974830861901414]
本研究では,上海の世帯調査から得られた旅行満足度データを用いて,大規模言語モデルと人間の行動の相違点と原因を特定する。ゼロショットLLMは, 動作の誤りを呈し, 予測精度が比較的低いことが判明した。小型のサンプルを用いた旅行行動モデルに適用可能なLLMに基づくモデリング手法を提案する。
論文参考訳（メタデータ） (2025-05-29T09:11:58Z)
Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文参考訳（メタデータ） (2025-03-20T03:02:32Z)
Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data [0.0]
大言語モデル(LLM)を使用して、調査質問に答える仮想人口を作成します。 GPT-4o, GPT-3.5, Claude 3.5-Sonnet, そしてLlama と Mistral モデルの性能を従来のランダムフォレストアルゴリズムと比較して評価した。
論文参考訳（メタデータ） (2025-03-11T16:27:20Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文参考訳（メタデータ） (2025-02-10T21:59:27Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文参考訳（メタデータ） (2024-12-26T22:06:29Z)
LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。 PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文参考訳（メタデータ） (2024-12-04T09:39:56Z)
AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。 AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。 FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文参考訳（メタデータ） (2024-05-29T17:54:22Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。