論文の概要: HeartBench: Probing Core Dimensions of Anthropomorphic Intelligence in LLMs
- arxiv url: http://arxiv.org/abs/2512.21849v1
- Date: Fri, 26 Dec 2025 03:54:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:52.277659
- Title: HeartBench: Probing Core Dimensions of Anthropomorphic Intelligence in LLMs
- Title(参考訳): HeartBench: LLMにおける人為的多形性知能のコアディメンジョン
- Authors: Jiaxin Liu, Peiyi Tu, Wenyu Chen, Yihong Zhuang, Xinxia Ling, Anji Zhou, Chenxi Wang, Zhuo Han, Zhengkai Yang, Junbo Zhao, Zenan Huang, Yuanyuan Wang,
- Abstract要約: HeartBenchは、中国の大規模言語モデル(LLM)の総合的な感情的、文化的、倫理的次元を評価するために設計されたフレームワークである。
先行モデルでさえ、専門家が定義した理想スコアの60%しか達成できない。
難易度階層化された「ハードセット」を用いた分析では、微妙な感情的な文章や複雑な倫理的トレードオフを含むシナリオにおいて、顕著な性能低下が見られる。
- 参考スコア(独自算出の注目度): 20.794341575633503
- License:
- Abstract: While Large Language Models (LLMs) have achieved remarkable success in cognitive and reasoning benchmarks, they exhibit a persistent deficit in anthropomorphic intelligence-the capacity to navigate complex social, emotional, and ethical nuances. This gap is particularly acute in the Chinese linguistic and cultural context, where a lack of specialized evaluation frameworks and high-quality socio-emotional data impedes progress. To address these limitations, we present HeartBench, a framework designed to evaluate the integrated emotional, cultural, and ethical dimensions of Chinese LLMs. Grounded in authentic psychological counseling scenarios and developed in collaboration with clinical experts, the benchmark is structured around a theory-driven taxonomy comprising five primary dimensions and 15 secondary capabilities. We implement a case-specific, rubric-based methodology that translates abstract human-like traits into granular, measurable criteria through a ``reasoning-before-scoring'' evaluation protocol. Our assessment of 13 state-of-the-art LLMs indicates a substantial performance ceiling: even leading models achieve only 60% of the expert-defined ideal score. Furthermore, analysis using a difficulty-stratified ``Hard Set'' reveals a significant performance decay in scenarios involving subtle emotional subtexts and complex ethical trade-offs. HeartBench establishes a standardized metric for anthropomorphic AI evaluation and provides a methodological blueprint for constructing high-quality, human-aligned training data.
- Abstract(参考訳): LLM(Large Language Models)は認知と推論のベンチマークにおいて顕著な成功を収めた一方で、複雑な社会的、感情的、倫理的ニュアンスをナビゲートする能力である人為的知性に持続的な欠陥を呈している。
このギャップは特に、専門的な評価フレームワークや高品質な社会情緒的なデータが欠如している中国の言語・文化の文脈で顕著である。
これらの制約に対処するため,中国におけるLLMの総合的感情的・文化的・倫理的側面を評価するためのフレームワークであるHeartBenchを紹介する。
実際の心理学的カウンセリングのシナリオに基づいて開発され、臨床専門家と共同で開発されたこのベンチマークは、5つの一次次元と15の二次能力からなる理論駆動の分類に基づいて構成されている。
本研究では, 抽象的人間的特徴を, `reasoning-before-scoring'' 評価プロトコルを用いて, 粒度, 測定可能な基準に翻訳する, ケース固有, ルーリックな手法を実装した。
先行モデルでさえ、専門家が定義した理想スコアの60%しか達成できていない。
さらに、「ハードセット」を用いた分析では、微妙な感情的な部分文や複雑な倫理的トレードオフを含むシナリオにおいて、顕著なパフォーマンス低下が見られる。
HeartBenchは、人為的AI評価のための標準化されたメトリクスを確立し、高品質で人間に沿ったトレーニングデータを構築するための方法論的な青写真を提供する。
関連論文リスト
- The Linguistic Architecture of Reflective Thought: Evaluation of a Large Language Model as a Tool to Isolate the Formal Structure of Mentalization [0.0]
メンタライゼーションは認知的、感情的、他者間のコンポーネントを統合する。
大きな言語モデル(LLM)は、反射テキストを生成する能力の増大を示す。
論文 参考訳(メタデータ) (2025-11-20T23:51:34Z) - Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-27T17:22:34Z) - Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap [44.608160256874726]
本調査では,人間の知能のレンズを通して人為的評価パラダイムを導入する。
実践的な価値を得るために、経済の生存可能性、社会的影響、倫理的整合性、環境持続可能性を評価する価値指向評価(VQ)フレームワークを開拓した。
論文 参考訳(メタデータ) (2025-08-26T03:43:05Z) - A Computational Framework to Identify Self-Aspects in Text [9.187473897664105]
Selfは多面的な構造であり、言語で反映されている。
自己の多くの側面は、心理的および他のよく研究された現象と一致している。
本提案では,テキスト中の自己アスペクトを識別する計算フレームワークを開発する計画を提案する。
論文 参考訳(メタデータ) (2025-07-17T13:31:04Z) - Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。
人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。
その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文 参考訳(メタデータ) (2025-03-15T10:54:35Z) - MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、視覚的推論問題4,776の大規模トレーニングセットと、8つの異なる推論パラダイムにまたがる2,710の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。
最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。
近年の大規模推論モデルの増加にインスパイアされたベースラインとして,検証可能な報酬関数を用いた強化学習によってトレーニングされたマルチモーダル推論モデルもリリースした。
論文 参考訳(メタデータ) (2025-02-02T07:12:03Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。