論文の概要: NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs
- arxiv url: http://arxiv.org/abs/2605.29685v1
- Date: Thu, 28 May 2026 09:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.158019
- Title: NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs
- Title(参考訳): NICE: LLMのソーシャルインテリジェンスのための理論と診断ベンチマーク
- Authors: Yunjin Qi, Zhaojun Jiang, Xuan Wu, Hanxi Pan, Yixuan Wang, Yanfang Liu, Xiang Ji, Churu Yu, Chunyuan Zheng, Yingze Chen, Jie He, Liuqing Chen, Zaifeng Gao,
- Abstract要約: 大規模言語モデル(LLM)は、感情的な仲間関係やカスタマーサービスといった社会的文脈にますます適用されている。
既存のソーシャルインテリジェンスベンチマークには、社会的能力を統一された構造に整理する統一されたフレームワークが欠如している。
NICEは中国の代表的な文脈を通して運用された137項目の診断ベンチマークである。
- 参考スコア(独自算出の注目度): 18.51325484272099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly applied in social contexts such as emotional companionship and customer service, measuring their social intelligence has become critical to the quality and safety of human-AI interaction. However, existing social intelligence benchmarks lack a unified framework that organizes social abilities into a unified structure, and therefore cannot enable fine-grained diagnosis. To build the first holistic diagnostic evaluation grounded in social theory, we first construct a social intelligence framework through a literature review and multi-stage expert validation guided by psychometric principles. The resulting framework includes 4 categories and 11 dimensions, each further specified by fine-grained capability facets. Building on this framework, we introduce NICE (Norm, Interaction, Cognition, Experience), a diagnostic benchmark of 137 items operationalized through representative Chinese contexts. Across 5 frontier LLMs and a human reference group, models score higher in aggregate accuracy yet show a consistent weakness in Communication, which the framework localizes to 3 specific capability facets: multi-turn communication, nonverbal communication, and synchrony. NICE thus reframes social intelligence evaluation toward theory-grounded diagnosis of socially consequential weaknesses in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、感情的な協力関係やカスタマーサービスといった社会的文脈にますます適用されつつあるため、その社会的知性を測定することは、人間とAIの相互作用の品質と安全性にとって重要になっている。
しかし、既存のソーシャルインテリジェンスベンチマークには、社会的能力を統一された構造に整理する統一された枠組みが欠けているため、きめ細かい診断ができない。
社会理論に根ざした最初の総合的診断評価を構築するために,我々はまず,文献レビューと,心理学的原理で導かれた多段階の専門家による検証を通じて,社会知能の枠組みを構築した。
結果のフレームワークには4つのカテゴリと11の次元が含まれており、それぞれが細かな機能面によってさらに指定されている。
このフレームワーク上に構築されたNICE(Norm, Interaction, Cognition, Experience)は,中国の代表的な文脈から運用される137項目の診断ベンチマークである。
5つのフロンティア LLM と人間の参照グループにわたるモデルでは、集約精度が向上するが、通信における一貫した弱点が示され、フレームワークは、マルチターン通信、非言語通信、同期の3つの機能にローカライズされる。
したがって、NICEは、LLMにおける社会的に連続した弱点の理論的診断に向けて、社会的知能評価を再構築する。
関連論文リスト
- SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。
Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。
本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文 参考訳(メタデータ) (2026-03-17T17:58:44Z) - Social-R1: Towards Human-like Social Reasoning in LLMs [74.32494331695837]
我々は、人間のような社会知性を育むためには、ショートカットソリューションに抵抗する挑戦的なケースでのトレーニングが必要であると論じる。
モデル推論と人間の認知を多次元報酬で整合させる強化学習フレームワークSocial-R1を提案する。
論文 参考訳(メタデータ) (2026-03-10T06:26:24Z) - HeartBench: Probing Core Dimensions of Anthropomorphic Intelligence in LLMs [20.794341575633503]
HeartBenchは、中国の大規模言語モデル(LLM)の総合的な感情的、文化的、倫理的次元を評価するために設計されたフレームワークである。
先行モデルでさえ、専門家が定義した理想スコアの60%しか達成できない。
難易度階層化された「ハードセット」を用いた分析では、微妙な感情的な文章や複雑な倫理的トレードオフを含むシナリオにおいて、顕著な性能低下が見られる。
論文 参考訳(メタデータ) (2025-12-26T03:54:56Z) - S$^3$IT: A Benchmark for Spatially Situated Social Intelligence Test [26.79990069295221]
本稿では,具体的ソーシャルインテリジェンスを評価するために特別に設計されたベンチマークである空間決定型ソーシャルインテリジェンステスト(S$3$IT)を紹介する。
エージェントは大規模な言語モデル駆動NPCのグループのために3D環境に座席を配置する必要がある。
我々のフレームワークは、制御し難い広い多様なシナリオ空間を生成し、エージェントに活発な対話を通して好みを取得し、自律的な探索を通して環境を知覚し、複雑な制約ネットワーク内で多目的最適化を行うよう促す。
論文 参考訳(メタデータ) (2025-12-23T02:36:56Z) - SocialNLI: A Dialogue-Centric Social Inference Dataset [49.60157928163403]
第1回社会対話推論データセットSocialNLIを紹介する。
SocialNLIは、複雑な社会的ニュアンスの中心となるために手書きの対話文からなる。
多段階の反実的推論による推論モデルの評価を行う。
論文 参考訳(メタデータ) (2025-10-06T23:42:01Z) - MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems [17.381122321801556]
メタ認知の心理学理論に触発されたマルチエージェントフレームワークであるMetaMindを紹介する。
我々のフレームワークは3つの挑戦的なベンチマークで最先端のパフォーマンスを実現し、実世界の社会的シナリオは35.7%改善した。
この研究は、共感的対話や文化的に敏感な相互作用に応用して、人間のような社会知性に向けてAIシステムを前進させる。
論文 参考訳(メタデータ) (2025-05-25T02:32:57Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。