論文の概要: HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?
- arxiv url: http://arxiv.org/abs/2605.30058v1
- Date: Thu, 28 May 2026 15:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.416112
- Title: HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?
- Title(参考訳): HEART-Bench: LLMエージェントは人間のような心理学を禁止しているのか?
- Authors: Weihan Peng, Chenxu Zhang, Qianao Wang, Yuling Shi, Heng Lian, Qihong Mao, Jiahao Pang, Chunliang Feng, Bowen Li, Xiaodong Gu,
- Abstract要約: 本稿では,LLMエージェントが人間のようなコヒーレントな心理をシミュレートできるかどうかを評価するための新しいベンチマークを提案する。
我々のベンチマークでは、Big Fiveの性格特性を基盤とした11種類の人格文字が構成されており、各プロファイルは1,000個の自己書誌的エピソード記憶と深く統合されている。
エージェントを様々なシナリオに従属させることで、彼らの固有の性格特性と自伝的記憶を統合して、行動決定を特定の心理的プロファイルと整合させることができるかどうかを評価する。
- 参考スコア(独自算出の注目度): 25.237337617299946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLM agents have demonstrated remarkable task-oriented abilities such as planning, reasoning, and action, few works have treated them as complete human personalities where emotional dimensions hold equal importance. In this paper, we introduce a novel benchmark to systematically assess whether LLM agents can simulate coherent, human-like psychology. Specifically, our benchmark constructs 11 diverse human characters grounded in orthogonal Big Five personality traits, with each profile deeply integrated with 1,000 structured autobiographical-style episodic memories distributed across theory-grounded developmental life stages. To rigorously evaluate the psychological manifestations of LLMs, we designed a curated suite of 64 decision-making scenarios, guided by the DIAMONDS taxonomy, a psychological framework that characterizes situations along eight dimensions: Duty, Intellect, Adversity, Mating, pOsitivity, Negativity, Deception, and Sociality. By subjecting agents to varying scenarios, the benchmark evaluates whether they can consolidate their innate personality traits and autobiographical memories to make behavioral decisions that are consistent with their specific psychological profiles. After systematic human validation and filtering, we obtained a benchmark consisting of 673 multiple-choice questions (MCQs). We believe this benchmark provides a principled and scalable testbed for studying human-like emotions, personality consistency, and value-consistent behavioural decision-making in LLM-based agents.
- Abstract(参考訳): LLMエージェントは、計画、推論、行動といった目覚ましいタスク指向の能力を示してきたが、感情的な次元が同じ重要性を持つ完全な人間的個性として扱った作品はほとんどない。
本稿では,LLMエージェントがコヒーレントで人間らしい心理学をシミュレートできるかどうかを体系的に評価するための新しいベンチマークを提案する。
具体的には、直交する5つの人格の特徴を基盤とした11種類の人格をベンチマークで構成し、各プロファイルは理論上の発達段階に分散した1000個の自伝的エピソード記憶と深く統合する。
LLMの心理的発現を厳格に評価するために,DiamonDS分類法(DIAMONDS taxonomy, DIAMONDS taxonomy, DIAMONDS taxonomy, DIAMONDS taxonomy, DIAMONDS taxonomy)によって導かれる64の意思決定シナリオのキュレートスイートを設計した。
エージェントを様々なシナリオに従属させることにより、ベンチマークは、彼らの固有の性格特性と自伝的記憶を統合して、特定の心理学的プロファイルと整合した行動決定を行うことができるかどうかを評価する。
体系的な検証とフィルタリングを行った結果,673質問(MCQ)からなるベンチマークが得られた。
このベンチマークは、LLMベースのエージェントにおいて、人間のような感情、個性一貫性、および価値一貫性のある行動決定を研究するための、原則付きでスケーラブルなテストベッドを提供すると信じている。
関連論文リスト
- MindShift: Analyzing Language Models' Reactions to Psychological Prompts [6.696296750931842]
大規模言語モデル(LLM)は、ユーザが指定した性格特性や態度を吸収し、反映する可能性を秘めている。
LLMの心理的適応性を評価するためのベンチマークであるMindShiftを紹介した。
論文 参考訳(メタデータ) (2025-12-09T21:56:54Z) - Evaluating Personality Traits in Large Language Models: Insights from Psychological Questionnaires [3.6001840369062386]
この研究は、多種多様なシナリオにおける大規模言語モデルに心理学的ツールを適用し、パーソナリティプロファイルを生成する。
以上の結果から, LLMは, 同一モデル群においても, 特徴, 特徴, 性格の異なる特徴を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-07T16:12:52Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。