論文の概要: Psycholinguistic Word Features: a New Approach for the Evaluation of LLMs Alignment with Humans
- arxiv url: http://arxiv.org/abs/2506.22439v1
- Date: Thu, 29 May 2025 20:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.337541
- Title: Psycholinguistic Word Features: a New Approach for the Evaluation of LLMs Alignment with Humans
- Title(参考訳): 心理言語的単語の特徴:人間とのLLMアライメント評価のための新しいアプローチ
- Authors: Javier Conde, Miguel González, María Grandury, Gonzalo Martínez, Pedro Reviriego, Mar Brysbaert,
- Abstract要約: 我々は,LLMの代表群と人間の評価値とのアライメントを心理言語学的データセット上で評価した。
その結果,グラスゴーのノルム評価において,アライメントはテキストカラーブラックの方が概ね良好であることが示唆された。
これは、現在のLLMが単語に対する人間の感覚関連と一致している可能性を示唆している。
- 参考スコア(独自算出の注目度): 2.7013338932521416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of LLMs has so far focused primarily on how well they can perform different tasks such as reasoning, question-answering, paraphrasing, or translating. For most of these tasks, performance can be measured with objective metrics, such as the number of correct answers. However, other language features are not easily quantified. For example, arousal, concreteness, or gender associated with a given word, as well as the extent to which we experience words with senses and relate them to a specific sense. Those features have been studied for many years by psycholinguistics, conducting large-scale experiments with humans to produce ratings for thousands of words. This opens an opportunity to evaluate how well LLMs align with human ratings on these word features, taking advantage of existing studies that cover many different language features in a large number of words. In this paper, we evaluate the alignment of a representative group of LLMs with human ratings on two psycholinguistic datasets: the Glasgow and Lancaster norms. These datasets cover thirteen features over thousands of words. The results show that alignment is \textcolor{black}{generally} better in the Glasgow norms evaluated (arousal, valence, dominance, concreteness, imageability, familiarity, and gender) than on the Lancaster norms evaluated (introceptive, gustatory, olfactory, haptic, auditory, and visual). This suggests a potential limitation of current LLMs in aligning with human sensory associations for words, which may be due to their lack of embodied cognition present in humans and illustrates the usefulness of evaluating LLMs with psycholinguistic datasets.
- Abstract(参考訳): LLMの評価は、これまでのところ、推論、質問応答、パラフレージング、翻訳といった様々なタスクをいかにうまくこなせるかに焦点が当てられている。
これらのタスクの多くは、正しい回答の数など、客観的なメトリクスでパフォーマンスを測定することができる。
しかし、他の言語の特徴は容易に定量化できない。
例えば、ある単語に関連付けられた覚醒、具体性、性別、感覚を持つ単語を経験し、特定の感覚に関連付ける程度などです。
これらの特徴は長年、精神言語学者によって研究され、何千もの単語のレーティングを生成するために人間による大規模な実験が行われた。
このことは、LLMがこれらの単語の特徴に対する人間の評価とどのように一致しているかを評価する機会を開き、多数の単語で多くの異なる言語特徴をカバーする既存の研究を生かした。
本稿では,グラスゴーとランカスターの規範という2つの心理言語学的データセットを用いて,LLMの代表群と人間の評価との整合性を評価する。
これらのデータセットは、数千語以上の13の特徴をカバーしている。
その結果, ランカスターのノルム(内観, 味覚, 嗅覚, 触覚, 聴覚, 視覚)よりも, グラスゴーのノルム(覚醒, ヴァレンス, 支配性, 具体性, イメージ性, 親しみやすさ, 性別)においてアライメントが良好であることが示唆された。
これは、人間の知覚関連と単語の一致における現在のLLMの潜在的な制限を示唆しており、これは人間の内在する認識が欠如していることによるものであり、精神言語的なデータセットを用いてLLMを評価することの有用性を示している。
関連論文リスト
- XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。
XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-06-03T05:23:25Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。