論文の概要: AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities
- arxiv url: http://arxiv.org/abs/2603.11279v1
- Date: Wed, 11 Mar 2026 20:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.624614
- Title: AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities
- Title(参考訳): AI心理学:心理学的妥当性を用いた大規模言語モデルの心理学的推論の評価
- Authors: Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li,
- Abstract要約: 膨大な数のパラメータとディープニューラルネットワークが、人間の脳の複雑さに匹敵する大きな言語モデル(LLM)を生み出している。
本稿では,4つの著名なLCMの心理的推論と全体心理学的妥当性を評価するために,AI心理学の応用について検討する。
- 参考スコア(独自算出の注目度): 5.532324061241031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The immense number of parameters and deep neural networks make large language models (LLMs) rival the complexity of human brains, which also makes them opaque ``black box'' systems that are challenging to evaluate and interpret. AI Psychometrics is an emerging field that aims to tackle these challenges by applying psychometric methodologies to evaluate and interpret the psychological traits and processes of artificial intelligence (AI) systems. This paper investigates the application of AI Psychometrics to evaluate the psychological reasoning and overall psychometric validity of four prominent LLMs: GPT-3.5, GPT-4, LLaMA-2, and LLaMA-3. Using the Technology Acceptance Model (TAM), we examined convergent, discriminant, predictive, and external validity across these models. Our findings reveal that the responses from all these models generally met all validity criteria. Moreover, higher-performing models like GPT-4 and LLaMA-3 consistently demonstrated superior psychometric validity compared to their predecessors, GPT-3.5 and LLaMA-2. These results help to establish the validity of applying AI Psychometrics to evaluate and interpret large language models.
- Abstract(参考訳): 膨大な数のパラメータとディープニューラルネットワークは、人間の脳の複雑さに匹敵する大きな言語モデル(LLM)を生み出します。
AI心理学は、人工知能(AI)システムの心理的特性とプロセスの評価と解釈に心理学的方法論を適用することによって、これらの課題に取り組むことを目的とした新興分野である。
本稿では, GPT-3.5, GPT-4, LLaMA-2, LLaMA-3の4つの顕著なLCMの心理的推論と総合的心理測定妥当性を評価するためのAI心理測定の適用について検討する。
TAM(Technology Acceptance Model)を用いて,これらのモデル間の収束性,識別性,予測性,外部妥当性を検討した。
以上の結果から,これらのモデルからの反応は一般にすべての妥当性基準を満たしていることが明らかとなった。
さらに, GPT-4 や LLaMA-3 などの高パフォーマンスモデルでは, 先行モデルである GPT-3.5 や LLaMA-2 と比較して, 心理的妥当性が良好であった。
これらの結果は、大規模言語モデルの評価と解釈にAI心理学を適用する妥当性を確立するのに役立つ。
関連論文リスト
- Projective Psychological Assessment of Large Multimodal Models Using Thematic Apperception Tests [5.119837168333715]
本研究では,LMM(Large Multimodal Models)の性格特性が,非言語的モダリティによって評価できるかどうかを検討する。
評価者は、TAT応答を理解し分析する優れた能力を示した。
論文 参考訳(メタデータ) (2026-02-19T06:08:33Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - MindEval: Benchmarking Language Models on Multi-turn Mental Health Support [10.524387723320432]
MindEvalは、現実的でマルチターンのメンタルヘルスセラピー会話において、言語モデルを自動的に評価するためのフレームワークである。
シミュレーションされた患者が生成したテキストに対する現実性を定量的に検証し、自動判断と人的判断との間に強い相関関係を示す。
われわれは12の最先端のLCMを評価し、AI固有のコミュニケーションパターンに特に弱点がある平均6点中4点以下で、すべてのモデルが苦戦していることを示す。
論文 参考訳(メタデータ) (2025-11-23T15:19:29Z) - Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis [0.0]
本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。
GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。
以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
論文 参考訳(メタデータ) (2025-06-29T01:56:56Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement [16.608577295968942]
本稿は, LLM心理学の新しい学際分野について紹介し, 合成する。
心理学は人格、価値観、知性といった人間の心理学の無形側面を定量化する。
最終的にこのレビューは、人間レベルのAIに合わせて将来の評価パラダイムを開発するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-13T05:47:51Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。