論文の概要: Modeling the human lexicon under temperature variations: linguistic factors, diversity and typicality in LLM word associations
- arxiv url: http://arxiv.org/abs/2603.18171v1
- Date: Wed, 18 Mar 2026 18:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.793652
- Title: Modeling the human lexicon under temperature variations: linguistic factors, diversity and typicality in LLM word associations
- Title(参考訳): 温度変化下におけるヒト語彙のモデル化 : LLM単語関連における言語的要因,多様性,典型性
- Authors: Maria Andueza Rodriguez, Marie Candito, Richard Huyghe,
- Abstract要約: 本研究では,人間の言語モデルと大規模言語モデル(LLM)を比較した。
単語頻度や具体性などの語彙的要因がキュー応答対に与える影響について検討する。
その結果、全てのモデルが人間の頻度と具体的な傾向を反映するが、応答のばらつきや典型性が異なることがわかった。
- 参考スコア(独自算出の注目度): 2.3950779725796765
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) achieve impressive results in terms of fluency in text generation, yet the nature of their linguistic knowledge - in particular the human-likeness of their internal lexicon - remains uncertain. This study compares human and LLM-generated word associations to evaluate how accurately models capture human lexical patterns. Using English cue-response pairs from the SWOW dataset and newly generated associations from three LLMs (Mistral-7B, Llama-3.1-8B, and Qwen-2.5-32B) across multiple temperature settings, we examine (i) the influence of lexical factors such as word frequency and concreteness on cue-response pairs, and (ii) the variability and typicality of LLM responses compared to human responses. Results show that all models mirror human trends for frequency and concreteness but differ in response variability and typicality. Larger models such as Qwen tend to emulate a single "prototypical" human participant, generating highly typical but minimally variable responses, while smaller models such as Mistral and Llama produce more variable yet less typical responses. Temperature settings further influence this trade-off, with higher values increasing variability but decreasing typicality. These findings highlight both the similarities and differences between human and LLM lexicons, emphasizing the need to account for model size and temperature when probing LLM lexical representations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成における流布度の観点から印象的な結果を得るが、言語知識の性質(特に内部語彙の人間的類似性)はいまだに不明である。
本研究は,人間の語彙パターンを正確に捉えたモデルを評価するために,人間とLLMの生成した単語関連性を比較した。
SWOWデータセットからの英語cue-responseペアと,複数温度設定における3つのLLM(Mistral-7B,Llama-3.1-8B,Qwen-2.5-32B)の関連性について検討した。
一 単語の頻度、具体性等の語彙的要因がcue-responseペアに与える影響、及び
(II) LLM応答の変動と典型性は, 人間の反応と比較した。
その結果、全てのモデルが人間の頻度と具体的な傾向を反映するが、応答のばらつきや典型性が異なることがわかった。
Qwenのようなより大きなモデルは、単一の「原始的な」人間の参加者をエミュレートする傾向があり、非常に典型的だが最小限の可変応答を生成する一方、MistralやLlamaのようなより小さなモデルはより可変で典型的でない応答を生成する。
温度設定は、このトレードオフにさらに影響を与え、高い値が可変性を高め、典型性を低下させる。
これらの知見は,LLMレキシコンとLLMレキシコンの類似点と相違点を強調し,LLMレキシコンを探索する際のモデルサイズと温度を考慮する必要性を強調した。
関連論文リスト
- Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task [0.0]
大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-22T03:08:27Z) - Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility [7.183662547358301]
大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。
いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
論文 参考訳(メタデータ) (2025-03-21T23:25:42Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity [2.5975241792179378]
研究者は大規模言語モデル(LLM)を人間の行動研究の代替として使用することを提案した。
トレーニング後のアライメント(RLHFまたはRLAIF)がモデルの内部多様性に影響を及ぼすかどうかが議論されている。
我々は、シミュレーションされた個体の内部変動と集団レベルの変動を関連づけることで、合成合成LLMの「人口」の概念的多様性を測定する新しい方法を用いる。
論文 参考訳(メタデータ) (2024-11-07T04:38:58Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
我々は,LLMにおける記号的人間の値分布の高次元神経表現であるUniVaRを提案する。
これは連続的かつスケーラブルな表現であり、8LLMの値関連出力から自己教師される。
LLMが25の言語や文化で異なる価値を優先し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。