論文の概要: Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence?
- arxiv url: http://arxiv.org/abs/2511.21218v1
- Date: Wed, 26 Nov 2025 09:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.045458
- Title: Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence?
- Title(参考訳): LLMの微細化は、不均一性、アライメント、およびBreief-Action Coherenceを増大させるか?
- Authors: Steven Wang, Kyle Hunt, Shaojie Tang, Kenneth Joseph,
- Abstract要約: 大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
- 参考スコア(独自算出の注目度): 9.310571879281186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is ongoing debate about whether large language models (LLMs) can serve as substitutes for human participants in survey and experimental research. While recent work in fields such as marketing and psychology has explored the potential of LLM-based simulation, a growing body of evidence cautions against this practice: LLMs often fail to align with real human behavior, exhibiting limited diversity, systematic misalignment for minority subgroups, insufficient within-group variance, and discrepancies between stated beliefs and actions. This study examines an important and distinct question in this domain: whether fine-tuning on a small subset of human survey data, such as that obtainable from a pilot study, can mitigate these issues and yield realistic simulated outcomes. Using a behavioral experiment on information disclosure, we compare human and LLM-generated responses across multiple dimensions, including distributional divergence, subgroup alignment, belief-action coherence, and the recovery of regression coefficients. We find that fine-tuning on small human samples substantially improves heterogeneity, alignment, and belief-action coherence relative to the base model. However, even the best-performing fine-tuned models fail to reproduce the regression coefficients of the original study, suggesting that LLM-generated data remain unsuitable for replacing human participants in formal inferential analyses.
- Abstract(参考訳): 大規模言語モデル (LLM) が, 調査および実験研究の参加者の代用として機能するかどうか, 議論が続いている。
マーケティングや心理学などの分野における最近の研究は、LLMに基づくシミュレーションの可能性を探っているが、この実践に対する証拠が増えている。
本研究では,パイロットスタディから得られるような,人間の調査データのごく一部を微調整することで,これらの問題を緩和し,現実的なシミュレーション結果が得られるかどうかという,この領域における重要かつ明確な疑問について考察する。
情報開示に関する行動実験を用いて、分布のばらつき、サブグループアライメント、信念-行動コヒーレンス、回帰係数の回復など、多次元にわたる人間とLLMの反応を比較した。
小型人体試料の微調整により, 基礎モデルに対する異質性, 配向性, 信念-行動コヒーレンスが著しく向上することがわかった。
しかしながら、最も優れた微調整モデルでさえも、元の研究の回帰係数を再現することができず、LLMの生成したデータは、正式な推論分析において人間の参加者を置き換えるには相変わらず適していないことを示唆している。
関連論文リスト
- Large language models replicate and predict human cooperation across experiments in game theory [0.8166364251367626]
大きな言語モデルが実際の人間の意思決定をいかに反映しているかは、いまだに理解されていない。
我々は,ゲーム理論実験のディジタルツインを開発し,機械行動評価のためのシステマティック・プロンプトと探索の枠組みを導入する。
Llamaは人間の協調パターンを高い忠実度で再現し、合理的選択理論から人間の偏差を捉える。
論文 参考訳(メタデータ) (2025-11-06T16:21:27Z) - Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management [11.302500716500893]
LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートする新しいツールである。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
論文 参考訳(メタデータ) (2025-09-30T20:20:58Z) - Can Generative AI agents behave like humans? Evidence from laboratory market experiments [0.0]
経済市場実験において,人間の行動を再現する大規模言語モデルの可能性を探る。
実験室で観察されたLLM行動と市場動態を比較し,人間の行動との整合性を評価する。
これらの結果から,LLMは経済的文脈における現実的な人間の行動のシミュレーションツールとして有望であることが示唆された。
論文 参考訳(メタデータ) (2025-05-12T11:44:46Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。