論文の概要: SocialEval: Evaluating Social Intelligence of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.00900v1
- Date: Sun, 01 Jun 2025 08:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.691523
- Title: SocialEval: Evaluating Social Intelligence of Large Language Models
- Title(参考訳): SocialEval: 大規模言語モデルのソーシャルインテリジェンスを評価する
- Authors: Jinfeng Zhou, Yuxuan Chen, Yihan Shi, Xuanming Zhang, Leqi Lei, Yi Feng, Zexuan Xiong, Miao Yan, Xunzhi Wang, Yaru Cao, Jianing Yin, Shuai Wang, Quanyu Dai, Zhenhua Dong, Hongning Wang, Minlie Huang,
- Abstract要約: ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
- 参考スコア(独自算出の注目度): 70.90981021629021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs exhibit promising Social Intelligence (SI) in modeling human behavior, raising the need to evaluate LLMs' SI and their discrepancy with humans. SI equips humans with interpersonal abilities to behave wisely in navigating social interactions to achieve social goals. This presents an operational evaluation paradigm: outcome-oriented goal achievement evaluation and process-oriented interpersonal ability evaluation, which existing work fails to address. To this end, we propose SocialEval, a script-based bilingual SI benchmark, integrating outcome- and process-oriented evaluation by manually crafting narrative scripts. Each script is structured as a world tree that contains plot lines driven by interpersonal ability, providing a comprehensive view of how LLMs navigate social interactions. Experiments show that LLMs fall behind humans on both SI evaluations, exhibit prosociality, and prefer more positive social behaviors, even if they lead to goal failure. Analysis of LLMs' formed representation space and neuronal activations reveals that LLMs have developed ability-specific functional partitions akin to the human brain.
- Abstract(参考訳): LLMは、人間の行動のモデリングにおいて有望な社会知能(SI)を示し、LLMのSIと人間との相違を評価する必要性を高めている。
SIは、社会的な目標を達成するために、社会的相互作用をナビゲートする際に賢く振る舞う対人能力を持つ人間を装備する。
これは、成果志向の目標達成評価とプロセス指向の対人能力評価という、既存の作業に対処できない運用評価パラダイムを提示する。
そこで本稿では,スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
各スクリプトは、対人力によって駆動されるプロットラインを含むワールドツリーとして構成され、LLMが社会的相互作用をどのようにナビゲートするかの包括的なビューを提供する。
実験の結果、LSMはSI評価の両方で人間に遅れ、社会性を示し、たとえ目標達成に繋がったとしても、よりポジティブな社会的行動を好むことが示された。
LLMの形成する表現空間と神経細胞の活性化の分析により、LLMはヒト脳に似た能力特異的な機能的パーティションを発達したことが明らかとなった。
関連論文リスト
- EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。
EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文 参考訳(メタデータ) (2024-10-08T16:55:51Z) - InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context [27.740204336800687]
大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。
我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
論文 参考訳(メタデータ) (2024-06-18T02:02:15Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。