論文の概要: Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
- arxiv url: http://arxiv.org/abs/2505.08245v1
- Date: Tue, 13 May 2025 05:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.437819
- Title: Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
- Title(参考訳): 大規模言語モデル心理学 : 評価,検証,拡張の体系的レビュー
- Authors: Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song,
- Abstract要約: 大規模言語モデル(LLM)の急速な進歩は、従来の評価手法よりも優れている。
心理学とは、人格、価値観、知性といった人間の心理学の無形側面を定量化する科学である。
本調査は, LLM心理学の学際分野を新たに導入し, 合成するものである。
- 参考スコア(独自算出の注目度): 16.608577295968942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has outpaced traditional evaluation methodologies. It presents novel challenges, such as measuring human-like psychological constructs, navigating beyond static and task-specific benchmarks, and establishing human-centered evaluation. These challenges intersect with Psychometrics, the science of quantifying the intangible aspects of human psychology, such as personality, values, and intelligence. This survey introduces and synthesizes an emerging interdisciplinary field of LLM Psychometrics, which leverages psychometric instruments, theories, and principles to evaluate, understand, and enhance LLMs. We systematically explore the role of Psychometrics in shaping benchmarking principles, broadening evaluation scopes, refining methodologies, validating results, and advancing LLM capabilities. This paper integrates diverse perspectives to provide a structured framework for researchers across disciplines, enabling a more comprehensive understanding of this nascent field. Ultimately, we aim to provide actionable insights for developing future evaluation paradigms that align with human-level AI and promote the advancement of human-centered AI systems for societal benefit. A curated repository of LLM psychometric resources is available at https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、従来の評価手法よりも優れている。
例えば、人間のような心理的構造を測定すること、静的およびタスク固有のベンチマークを超えてナビゲートすること、人間中心の評価を確立することなどである。
これらの課題は、人格、価値観、知性といった人間の心理学の無形側面を定量化する科学である心理学と交差する。
本調査では, 心理測定器, 理論, 原理を活用して, LLMを評価し, 理解し, 強化する, 新たな学際的分野であるLCM心理測定を新たに導入し, 合成する。
我々は,ベンチマークの原則の策定,評価範囲の拡大,方法論の精錬,結果の検証,LLM能力の向上における心理測定の役割を体系的に検討する。
本稿は、様々な視点を統合して、研究者が専門分野にまたがる構造的枠組みを提供することにより、この新しい分野のより包括的な理解を可能にする。
究極的には、人間レベルのAIと整合し、社会的利益のために人間中心のAIシステムの進歩を促進する将来の評価パラダイムを開発するための実用的な洞察を提供することを目指している。
LLMサイコメトリックリソースのキュレートされたリポジトリはhttps://github.com/valuebyte-ai/Awesome-LLM-Psychometricsで公開されている。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。
我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。
我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文 参考訳(メタデータ) (2025-07-25T20:52:58Z) - Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.38031971196831]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。
彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文 参考訳(メタデータ) (2025-04-30T06:09:40Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。
人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。
その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文 参考訳(メタデータ) (2025-03-15T10:54:35Z) - Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation [0.0]
本研究では,Large Language Models (LLMs) を用いた科学文献における動的に進化するトピックの自動評価のための枠組みを提案する。
提案手法は,専門家のアノテータや狭義の統計指標に大きく依存することなく,コヒーレンス,反復性,多様性,トピック文書のアライメントといった重要な品質次元を測定するためにLLMを利用する。
論文 参考訳(メタデータ) (2025-02-11T08:23:56Z) - Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models [13.795641564238434]
本研究はGPV(Generative Psychometrics for Values)を紹介する。
GPVはデータ駆動値測定のパラダイムであり、テキスト検索による選択的知覚に基づいている。
GPVを人間によるブログに適用することにより、従来の心理学的ツールよりも安定性、妥当性、優越性を実証する。
論文 参考訳(メタデータ) (2024-09-18T16:26:22Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - A Framework for Human Evaluation of Large Language Models in Healthcare Derived from Literature Review [11.28580626017631]
我々は、標準化された一貫した人間評価アプローチに対する顕著なニーズを強調します。
大規模言語モデル(LLM)の人間評価のための包括的で実践的な枠組みを提案する。
このフレームワークは、異なる医療アプリケーションにおけるLCMの信頼性、一般化可能性、適用性を改善することを目的としている。
論文 参考訳(メタデータ) (2024-05-04T04:16:07Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。