Fugu-MT 論文翻訳(概要): Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis

論文の概要: Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis

arxiv url: http://arxiv.org/abs/2506.23055v1
Date: Sun, 29 Jun 2025 01:56:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.693109
Title: Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis
Title（参考訳）: LLMが人間の心理学的概念をいかに内包するかを測る:予備的分析
Authors: Hiro Taiyo Hamada, Ippei Fujisawa, Genji Kawakita, Yuki Yamada,
Abstract要約: 本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。 GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) such as ChatGPT have shown remarkable abilities in producing human-like text. However, it is unclear how accurately these models internalize concepts that shape human thought and behavior. Here, we developed a quantitative framework to assess concept alignment between LLMs and human psychological dimensions using 43 standardized psychological questionnaires, selected for their established validity in measuring distinct psychological constructs. Our method evaluates how accurately language models reconstruct and classify questionnaire items through pairwise similarity analysis. We compared resulting cluster structures with the original categorical labels using hierarchical clustering. A GPT-4 model achieved superior classification accuracy (66.2\%), significantly outperforming GPT-3.5 (55.9\%) and BERT (48.1\%), all exceeding random baseline performance (31.9\%). We also demonstrated that the estimated semantic similarity from GPT-4 is associated with Pearson's correlation coefficients of human responses in multiple psychological questionnaires. This framework provides a novel approach to evaluate the alignment of the human-LLM concept and identify potential representational biases. Our findings demonstrate that modern LLMs can approximate human psychological constructs with measurable accuracy, offering insights for developing more interpretable AI systems.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)は、人間のようなテキストを生成する際、顕著な能力を示している。しかし、これらのモデルが人間の思考や行動を形成する概念をいかに正確に内部化するかは不明である。そこで我々は,43の標準化された心理質問紙を用いて,LLMと人間の心理的次元の考え方の整合性を評価するための定量的枠組みを構築した。本手法は,一対の類似性分析により,言語モデルによる質問項目の再構築と分類の精度を評価する。得られたクラスタ構造を階層的クラスタリングを用いて,元の分類ラベルと比較した。 GPT-4モデルは優れた分類精度(66.2\%)を達成し、GPT-3.5(55.9\%)とBERT(48.1\%)を大きく上回り、いずれもランダムなベースライン性能(31.9\%)を上回った。また, GPT-4から推定される意味的類似性は, 複数の心理調査においてピアソンの人間反応の相関係数と関連していることを示した。このフレームワークは、人間-LLM概念のアライメントを評価し、潜在的な表現バイアスを特定するための新しいアプローチを提供する。我々の研究は、現代のLLMが人間の心理的構造を測定可能な精度で近似し、より解釈可能なAIシステムを開発するための洞察を提供することを示した。

関連論文リスト

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement [16.608577295968942]
大規模言語モデル(LLM)の急速な進歩は、従来の評価手法よりも優れている。心理学とは、人格、価値観、知性といった人間の心理学の無形側面を定量化する科学である。本調査は, LLM心理学の学際分野を新たに導入し, 合成するものである。
論文参考訳（メタデータ） (2025-05-13T05:47:51Z)
Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文参考訳（メタデータ） (2025-03-15T10:54:35Z)
Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
Assessment and manipulation of latent constructs in pre-trained language models using psychometric scales [4.805861461250903]
本稿では,標準的な心理アンケートを自然言語推論のプロンプトに再構成する方法を示す。我々は、88種類の公開モデルを用いて、人間のようなメンタルヘルス関連構造の存在を実証した。
論文参考訳（メタデータ） (2024-09-29T11:00:41Z)
Idiographic Personality Gaussian Process for Psychological Assessment [7.394943089551214]
本稿では,長期間にわたる議論に対処するため,ガウス過程のコリージョン化モデルに基づく新しい測定フレームワークを開発する。本稿では,個体群間の共有形質構造と,個体群に対する「イディオグラフィー」偏差を両立する中間モデルであるIPGP(idiographic personality Gaussian process)の枠組みを提案する。
論文参考訳（メタデータ） (2024-07-06T06:09:04Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Investigating Large Language Models' Perception of Emotion Using Appraisal Theory [3.0902630634005797]
大規模言語モデル (LLM) は近年大きく進歩し、現在一般に使われている。本研究では,評価・対処理論のレンズによる感情知覚について検討する。 SCPQ を OpenAI, davinci-003, ChatGPT, GPT-4 の3つの最近の LLM に適用し,評価理論と人体データによる予測結果と比較した。
論文参考訳（メタデータ） (2023-10-03T16:34:47Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。