論文の概要: Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis
- arxiv url: http://arxiv.org/abs/2506.23055v1
- Date: Sun, 29 Jun 2025 01:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.693109
- Title: Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis
- Title(参考訳): LLMが人間の心理学的概念をいかに内包するかを測る:予備的分析
- Authors: Hiro Taiyo Hamada, Ippei Fujisawa, Genji Kawakita, Yuki Yamada,
- Abstract要約: 本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。
GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。
以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT have shown remarkable abilities in producing human-like text. However, it is unclear how accurately these models internalize concepts that shape human thought and behavior. Here, we developed a quantitative framework to assess concept alignment between LLMs and human psychological dimensions using 43 standardized psychological questionnaires, selected for their established validity in measuring distinct psychological constructs. Our method evaluates how accurately language models reconstruct and classify questionnaire items through pairwise similarity analysis. We compared resulting cluster structures with the original categorical labels using hierarchical clustering. A GPT-4 model achieved superior classification accuracy (66.2\%), significantly outperforming GPT-3.5 (55.9\%) and BERT (48.1\%), all exceeding random baseline performance (31.9\%). We also demonstrated that the estimated semantic similarity from GPT-4 is associated with Pearson's correlation coefficients of human responses in multiple psychological questionnaires. This framework provides a novel approach to evaluate the alignment of the human-LLM concept and identify potential representational biases. Our findings demonstrate that modern LLMs can approximate human psychological constructs with measurable accuracy, offering insights for developing more interpretable AI systems.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、人間のようなテキストを生成する際、顕著な能力を示している。
しかし、これらのモデルが人間の思考や行動を形成する概念をいかに正確に内部化するかは不明である。
そこで我々は,43の標準化された心理質問紙を用いて,LLMと人間の心理的次元の考え方の整合性を評価するための定量的枠組みを構築した。
本手法は,一対の類似性分析により,言語モデルによる質問項目の再構築と分類の精度を評価する。
得られたクラスタ構造を階層的クラスタリングを用いて,元の分類ラベルと比較した。
GPT-4モデルは優れた分類精度(66.2\%)を達成し、GPT-3.5(55.9\%)とBERT(48.1\%)を大きく上回り、いずれもランダムなベースライン性能(31.9\%)を上回った。
また, GPT-4から推定される意味的類似性は, 複数の心理調査においてピアソンの人間反応の相関係数と関連していることを示した。
このフレームワークは、人間-LLM概念のアライメントを評価し、潜在的な表現バイアスを特定するための新しいアプローチを提供する。
我々の研究は、現代のLLMが人間の心理的構造を測定可能な精度で近似し、より解釈可能なAIシステムを開発するための洞察を提供することを示した。
関連論文リスト
- Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement [16.608577295968942]
大規模言語モデル(LLM)の急速な進歩は、従来の評価手法よりも優れている。
心理学とは、人格、価値観、知性といった人間の心理学の無形側面を定量化する科学である。
本調査は, LLM心理学の学際分野を新たに導入し, 合成するものである。
論文 参考訳(メタデータ) (2025-05-13T05:47:51Z) - Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。
人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。
その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文 参考訳(メタデータ) (2025-03-15T10:54:35Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Idiographic Personality Gaussian Process for Psychological Assessment [7.394943089551214]
本稿では,長期間にわたる議論に対処するため,ガウス過程のコリージョン化モデルに基づく新しい測定フレームワークを開発する。
本稿では,個体群間の共有形質構造と,個体群に対する「イディオグラフィー」偏差を両立する中間モデルであるIPGP(idiographic personality Gaussian process)の枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-06T06:09:04Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Investigating Large Language Models' Perception of Emotion Using
Appraisal Theory [3.0902630634005797]
大規模言語モデル (LLM) は近年大きく進歩し、現在一般に使われている。
本研究では,評価・対処理論のレンズによる感情知覚について検討する。
SCPQ を OpenAI, davinci-003, ChatGPT, GPT-4 の3つの最近の LLM に適用し,評価理論と人体データによる予測結果と比較した。
論文 参考訳(メタデータ) (2023-10-03T16:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。