Fugu-MT 論文翻訳(概要): SocialEval: Evaluating Social Intelligence of Large Language Models

論文の概要: SocialEval: Evaluating Social Intelligence of Large Language Models

arxiv url: http://arxiv.org/abs/2506.00900v1
Date: Sun, 01 Jun 2025 08:36:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 04:22:50.691523
Title: SocialEval: Evaluating Social Intelligence of Large Language Models
Title（参考訳）: SocialEval: 大規模言語モデルのソーシャルインテリジェンスを評価する
Authors: Jinfeng Zhou, Yuxuan Chen, Yihan Shi, Xuanming Zhang, Leqi Lei, Yi Feng, Zexuan Xiong, Miao Yan, Xunzhi Wang, Yaru Cao, Jianing Yin, Shuai Wang, Quanyu Dai, Zhenhua Dong, Hongning Wang, Minlie Huang,
Abstract要約: ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
参考スコア（独自算出の注目度）: 70.90981021629021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs exhibit promising Social Intelligence (SI) in modeling human behavior, raising the need to evaluate LLMs' SI and their discrepancy with humans. SI equips humans with interpersonal abilities to behave wisely in navigating social interactions to achieve social goals. This presents an operational evaluation paradigm: outcome-oriented goal achievement evaluation and process-oriented interpersonal ability evaluation, which existing work fails to address. To this end, we propose SocialEval, a script-based bilingual SI benchmark, integrating outcome- and process-oriented evaluation by manually crafting narrative scripts. Each script is structured as a world tree that contains plot lines driven by interpersonal ability, providing a comprehensive view of how LLMs navigate social interactions. Experiments show that LLMs fall behind humans on both SI evaluations, exhibit prosociality, and prefer more positive social behaviors, even if they lead to goal failure. Analysis of LLMs' formed representation space and neuronal activations reveals that LLMs have developed ability-specific functional partitions akin to the human brain.
Abstract（参考訳）: LLMは、人間の行動のモデリングにおいて有望な社会知能(SI)を示し、LLMのSIと人間との相違を評価する必要性を高めている。 SIは、社会的な目標を達成するために、社会的相互作用をナビゲートする際に賢く振る舞う対人能力を持つ人間を装備する。これは、成果志向の目標達成評価とプロセス指向の対人能力評価という、既存の作業に対処できない運用評価パラダイムを提示する。そこで本稿では,スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。各スクリプトは、対人力によって駆動されるプロットラインを含むワールドツリーとして構成され、LLMが社会的相互作用をどのようにナビゲートするかの包括的なビューを提供する。実験の結果、LSMはSI評価の両方で人間に遅れ、社会性を示し、たとえ目標達成に繋がったとしても、よりポジティブな社会的行動を好むことが示された。 LLMの形成する表現空間と神経細胞の活性化の分析により、LLMはヒト脳に似た能力特異的な機能的パーティションを発達したことが明らかとなった。

関連論文リスト

Word Synchronization Challenge: A Benchmark for Word Association Responses for LLMs [4.352318127577628]
本稿では,人-コンピュータインタラクション(HCI)における大規模言語モデル(LLM)を評価するための新しいベンチマークであるWord Synchronization Challengeを紹介する。このベンチマークでは、動的ゲームライクなフレームワークを使用して、単語アソシエーションを通じて人間の認知プロセスを模倣するLLMの能力をテストする。
論文参考訳（メタデータ） (2025-02-12T11:30:28Z)
EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。 EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文参考訳（メタデータ） (2024-10-08T16:55:51Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context [27.740204336800687]
大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
論文参考訳（メタデータ） (2024-06-18T02:02:15Z)
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文参考訳（メタデータ） (2024-03-13T17:17:48Z)
Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文参考訳（メタデータ） (2023-12-23T08:46:53Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Training Socially Aligned Language Models on Simulated Social Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-26T14:17:36Z)
Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文参考訳（メタデータ） (2023-05-26T02:34:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。