論文の概要: Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task
- arxiv url: http://arxiv.org/abs/2505.16164v1
- Date: Thu, 22 May 2025 03:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.003819
- Title: Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task
- Title(参考訳): LLMは人間の行動変動をシミュレートできるか? : 音素周波数タスクにおけるケーススタディ
- Authors: Mengyang Qiu, Zoe Brisebois, Siena Sun,
- Abstract要約: 大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly explored as substitutes for human participants in cognitive tasks, but their ability to simulate human behavioral variability remains unclear. This study examines whether LLMs can approximate individual differences in the phonemic fluency task, where participants generate words beginning with a target letter. We evaluated 34 model configurations, varying prompt specificity, sampling temperature, and model type, and compared outputs to responses from 106 human participants. While some configurations, especially Claude 3.7 Sonnet, matched human averages and lexical preferences, none reproduced the scope of human variability. LLM outputs were consistently less diverse and structurally rigid, and LLM ensembles failed to increase diversity. Network analyses further revealed fundamental differences in retrieval structure between humans and models. These results highlight key limitations in using LLMs to simulate human cognition and behavior.
- Abstract(参考訳): 大きな言語モデル(LLM)は認知タスクにおける人間の参加者の代用として研究されているが、人間の行動の多様性をシミュレートする能力はいまだに不明である。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
実験では,34のモデル構成,即時特異性,サンプリング温度,モデルタイプを測定し,106人の被験者の反応と比較した。
いくつかの構成、特にクロード3.7ソンネットは人間の平均値と語彙の好みと一致したが、人間の多様性の範囲は再現されなかった。
LLMの出力は一貫して多様性が低く、構造的にも厳格であり、LCMのアンサンブルは多様性を増すことができなかった。
ネットワーク解析により、人間とモデル間の検索構造における根本的な違いが明らかになった。
これらの結果は、LLMを用いて人間の認知と行動をシミュレートする際の鍵となる限界を浮き彫りにする。
関連論文リスト
- LLM Agents Display Human Biases but Exhibit Distinct Learning Patterns [0.0]
経験的タスクから判断する文脈におけるLarge Language Models (LLMs)の選択パターンについて検討する。
その結果,LLMは人間に類似した行動バイアスを呈することがわかった。
しかし、選択パターンをより微妙に分析すると、これは非常に異なる理由で起こることが分かる。
論文 参考訳(メタデータ) (2025-03-13T10:47:03Z) - One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity [2.5975241792179378]
研究者は大規模言語モデル(LLM)を人間の行動研究の代替として使用することを提案した。
トレーニング後のアライメント(RLHFまたはRLAIF)がモデルの内部多様性に影響を及ぼすかどうかが議論されている。
我々は、シミュレーションされた個体の内部変動と集団レベルの変動を関連づけることで、合成合成LLMの「人口」の概念的多様性を測定する新しい方法を用いる。
論文 参考訳(メタデータ) (2024-11-07T04:38:58Z) - HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。
実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。
以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-24T09:02:28Z) - Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。
近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。
このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。
本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文 参考訳(メタデータ) (2024-09-06T12:42:35Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。