論文の概要: Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
- arxiv url: http://arxiv.org/abs/2505.08245v1
- Date: Tue, 13 May 2025 05:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.437819
- Title: Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
- Title(参考訳): 大規模言語モデル心理学 : 評価,検証,拡張の体系的レビュー
- Authors: Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song,
- Abstract要約: 大規模言語モデル(LLM)の急速な進歩は、従来の評価手法よりも優れている。
心理学とは、人格、価値観、知性といった人間の心理学の無形側面を定量化する科学である。
本調査は, LLM心理学の学際分野を新たに導入し, 合成するものである。
- 参考スコア(独自算出の注目度): 16.608577295968942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has outpaced traditional evaluation methodologies. It presents novel challenges, such as measuring human-like psychological constructs, navigating beyond static and task-specific benchmarks, and establishing human-centered evaluation. These challenges intersect with Psychometrics, the science of quantifying the intangible aspects of human psychology, such as personality, values, and intelligence. This survey introduces and synthesizes an emerging interdisciplinary field of LLM Psychometrics, which leverages psychometric instruments, theories, and principles to evaluate, understand, and enhance LLMs. We systematically explore the role of Psychometrics in shaping benchmarking principles, broadening evaluation scopes, refining methodologies, validating results, and advancing LLM capabilities. This paper integrates diverse perspectives to provide a structured framework for researchers across disciplines, enabling a more comprehensive understanding of this nascent field. Ultimately, we aim to provide actionable insights for developing future evaluation paradigms that align with human-level AI and promote the advancement of human-centered AI systems for societal benefit. A curated repository of LLM psychometric resources is available at https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、従来の評価手法よりも優れている。
例えば、人間のような心理的構造を測定すること、静的およびタスク固有のベンチマークを超えてナビゲートすること、人間中心の評価を確立することなどである。
これらの課題は、人格、価値観、知性といった人間の心理学の無形側面を定量化する科学である心理学と交差する。
本調査では, 心理測定器, 理論, 原理を活用して, LLMを評価し, 理解し, 強化する, 新たな学際的分野であるLCM心理測定を新たに導入し, 合成する。
我々は,ベンチマークの原則の策定,評価範囲の拡大,方法論の精錬,結果の検証,LLM能力の向上における心理測定の役割を体系的に検討する。
本稿は、様々な視点を統合して、研究者が専門分野にまたがる構造的枠組みを提供することにより、この新しい分野のより包括的な理解を可能にする。
究極的には、人間レベルのAIと整合し、社会的利益のために人間中心のAIシステムの進歩を促進する将来の評価パラダイムを開発するための実用的な洞察を提供することを目指している。
LLMサイコメトリックリソースのキュレートされたリポジトリはhttps://github.com/valuebyte-ai/Awesome-LLM-Psychometricsで公開されている。
関連論文リスト
- Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.38031971196831]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。
彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文 参考訳(メタデータ) (2025-04-30T06:09:40Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models [13.795641564238434]
本研究はGPV(Generative Psychometrics for Values)を紹介する。
GPVはデータ駆動値測定のパラダイムであり、テキスト検索による選択的知覚に基づいている。
GPVを人間によるブログに適用することにより、従来の心理学的ツールよりも安定性、妥当性、優越性を実証する。
論文 参考訳(メタデータ) (2024-09-18T16:26:22Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。