論文の概要: Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications
- arxiv url: http://arxiv.org/abs/2505.00049v1
- Date: Wed, 30 Apr 2025 06:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.122737
- Title: Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications
- Title(参考訳): 人間化LDM:ツール・データセット・ヒューマンエージェントを用いた心理測定の実態調査
- Authors: Wenhan Dong, Yuemeng Zhao, Zhen Sun, Yule Liu, Zifan Peng, Jingyi Zheng, Zongmin Zhang, Ziyi Zhang, Jun Wu, Ruiming Wang, Shengmin Xu, Xinyi Huang, Xinlei He,
- Abstract要約: 大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。
彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
- 参考スコア(独自算出の注目度): 25.38031971196831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly used in human-centered tasks, assessing their psychological traits is crucial for understanding their social impact and ensuring trustworthy AI alignment. While existing reviews have covered some aspects of related research, several important areas have not been systematically discussed, including detailed discussions of diverse psychological tests, LLM-specific psychological datasets, and the applications of LLMs with psychological traits. To address this gap, we systematically review six key dimensions of applying psychological theories to LLMs: (1) assessment tools; (2) LLM-specific datasets; (3) evaluation metrics (consistency and stability); (4) empirical findings; (5) personality simulation methods; and (6) LLM-based behavior simulation. Our analysis highlights both the strengths and limitations of current methods. While some LLMs exhibit reproducible personality patterns under specific prompting schemes, significant variability remains across tasks and settings. Recognizing methodological challenges such as mismatches between psychological tools and LLMs' capabilities, as well as inconsistencies in evaluation practices, this study aims to propose future directions for developing more interpretable, robust, and generalizable psychological assessment frameworks for LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)が人間中心のタスクでますます使われるようになるにつれて、彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
既存のレビューでは、関連する研究のいくつかの側面をカバーしているが、様々な心理学的テストの詳細な議論、LLM固有の心理学的データセット、LLMの心理的特性の応用など、いくつかの重要な分野が体系的に議論されていない。
このギャップに対処するために,(1)評価ツール,(2)LCM固有のデータセット,(3)評価指標(一貫性と安定性),(4)経験的発見,(5)パーソナリティシミュレーション,(6)LCMに基づく行動シミュレーションの6つの重要な側面を体系的に検討した。
我々の分析は、現在の手法の長所と短所の両方を強調している。
一部のLCMでは、特定のプロンプトスキームの下で再現可能なパーソナリティパターンを示すが、タスクや設定間で大きな変動が残っている。
心理的ツールとLLMの能力のミスマッチや評価実践の不整合などの方法論的課題を認識し,LLMのより解釈可能な,堅牢で,一般化可能な心理評価フレームワークを開発するための今後の方向性を提案する。
関連論文リスト
- Meta-Thinking in LLMs via Multi-Agent Reinforcement Learning: A Survey [2.572335031488049]
本稿では,MARL(Multi-Agent Reinforcement Learning)の観点から,大規模言語モデル(LLM)におけるメタ思考機能の開発について検討する。
MARLにおける報酬メカニズム、自己プレー、継続的な学習手法を探求することにより、この調査はイントロスペクティブで適応的で信頼性の高いLLMを構築するための包括的なロードマップを提供する。
論文 参考訳(メタデータ) (2025-04-20T07:34:26Z) - Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。
メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。
Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T02:29:15Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - A Survey on Human-Centric LLMs [11.49752599240738]
大型言語モデル(LLM)は人間の認知と行動をシミュレートすることができる。
この調査は個々のタスクと集合タスクの両方のパフォーマンスに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-20T12:34:44Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model's Personality [11.660251022962141]
大規模言語モデル(LLM)の人格特性の把握における従来のパーソナリティアンケートの有効性について検討する。
本研究の目的は, LLM が持つ性格特性と実世界のシナリオにおけるその傾向の一致を評価することである。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。