論文の概要: Finetuning LLMs for Human Behavior Prediction in Social Science Experiments
- arxiv url: http://arxiv.org/abs/2509.05830v1
- Date: Sat, 06 Sep 2025 20:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.733144
- Title: Finetuning LLMs for Human Behavior Prediction in Social Science Experiments
- Title(参考訳): 社会科学実験における人間の行動予測のための微調整LDM
- Authors: Akaash Kolluri, Shengguang Wu, Joon Sung Park, Michael S. Bernstein,
- Abstract要約: 過去の実験から個々のレベルの反応に直接、大きな言語モデル(LLM)を微調整することは、その精度を有意義に向上させる。
SocSci210は210の社会科学実験で400,491人の参加者から290万の回答を得たデータセットである。
我々の最強のモデルであるSocrates-Qwen-14Bは、多様な結果問題に対する人間の反応の分布に一致した26%の予測を生成する。
- 参考スコア(独自算出の注目度): 9.470846958372974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) offer a powerful opportunity to simulate the results of social science experiments. In this work, we demonstrate that finetuning LLMs directly on individual-level responses from past experiments meaningfully improves the accuracy of such simulations across diverse social science domains. We construct SocSci210 via an automatic pipeline, a dataset comprising 2.9 million responses from 400,491 participants in 210 open-source social science experiments. Through finetuning, we achieve multiple levels of generalization. In completely unseen studies, our strongest model, Socrates-Qwen-14B, produces predictions that are 26% more aligned with distributions of human responses to diverse outcome questions under varying conditions relative to its base model (Qwen2.5-14B), outperforming GPT-4o by 13%. By finetuning on a subset of conditions in a study, generalization to new unseen conditions is particularly robust, improving by 71%. Since SocSci210 contains rich demographic information, we reduce demographic parity, a measure of bias, by 10.6% through finetuning. Because social sciences routinely generate rich, topic-specific datasets, our findings indicate that finetuning on such data could enable more accurate simulations for experimental hypothesis screening. We release our data, models and finetuning code at stanfordhci.github.io/socrates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会科学実験の結果をシミュレートする強力な機会を提供する。
本研究では,過去の実験から個人レベルの反応を直接微調整することで,様々な社会科学領域におけるシミュレーションの精度が向上することが実証された。
SocSci210は210のオープンソース社会科学実験で400,491人の参加者から290万の回答を得たデータセットである。
微調整により、様々なレベルの一般化が達成される。
我々の最強のモデルであるSocrates-Qwen-14Bは、ベースモデル(Qwen2.5-14B)と比較して異なる条件下での多様な結果問題に対する人間の反応の分布に一致した26%の予測を生成し、GPT-4oを13%上回った。
研究における条件のサブセットを微調整することで、新しい目に見えない条件への一般化は特に堅牢になり、71%改善した。
SocSci210は人口統計情報を豊富に含んでいるので、偏見の尺度である人口統計のパリティを微調整によって10.6%削減する。
社会科学は、多種多様なトピック固有のデータセットを日常的に生成するので、そのようなデータを微調整することで、実験的な仮説スクリーニングのためのより正確なシミュレーションが可能になることが示唆された。
我々はstanfordhci.github.io/socratesでデータ、モデル、微調整コードをリリースします。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Twin-2K-500: A dataset for building digital twins of over 2,000 people based on their answers to over 500 questions [11.751234495886674]
LLMベースのデジタルツインシミュレーションは、AI、社会科学、デジタル実験の研究に大いに貢献する。
我々は、米国におけるN = 2,058$参加者(平均2.42時間)の代表サンプルを、合計500の質問を含む4つの波で調査した。
最初の分析では、データは高品質であることが示唆され、個人と集合レベルでの人間の振る舞いを良く予測するデジタルツインの構築が約束されている。
論文 参考訳(メタデータ) (2025-05-23T05:05:11Z) - Predicting Field Experiments with Large Language Models [0.6144680854063939]
フィールド実験の結果を予測するための自動LLMベースのフレームワークを提案し,評価する。
結果の分布はバイモーダルか高度に歪んでいるかのどちらかであることが判明した。
この異常を更に調査することで、複雑な社会問題に関連するフィールド実験が予測性能に重大な課題をもたらすことが判明した。
論文 参考訳(メタデータ) (2025-04-01T20:14:35Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - LIMO: Less is More for Reasoning [23.312893016642096]
数例の例で、洗練された数学的推論が実現可能であることを実証する。
LIMOはAIME24では63.3%,MATH500では95.6%の精度を実現している。
LIMOは、様々なベンチマークで45.8%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-02-05T17:23:45Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。