論文の概要: SI-Bench: Benchmarking Social Intelligence of Large Language Models in Human-to-Human Conversations
- arxiv url: http://arxiv.org/abs/2510.23182v1
- Date: Mon, 27 Oct 2025 10:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.519469
- Title: SI-Bench: Benchmarking Social Intelligence of Large Language Models in Human-to-Human Conversations
- Title(参考訳): SI-Bench:人間対人間会話における大規模言語モデルのソーシャルインテリジェンスベンチマーク
- Authors: Shuai Huang, Wenxuan Zhao, Jun Gao,
- Abstract要約: 大規模言語モデル(LLM)における社会的知能の側面を評価するための新しいベンチマークであるSI-Benchを紹介する。
SI-Benchは幅広い社会科学理論に基づいており、ソーシャルネットワーキングアプリケーションから収集された2,221の真のマルチターン対話を含んでいる。
実験では、複雑な社会的状況下でのプロセス推論において、SOTAモデルが人間の専門家を上回る結果となったが、それでも回答の品質は人間に劣っている。
- 参考スコア(独自算出の注目度): 8.453848538355508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) develop anthropomorphic abilities, they are increasingly being deployed as autonomous agents to interact with humans. However, evaluating their performance in realistic and complex social interactions remains a significant challenge. Most previous research built datasets through simulated agent-to-agent interactions, which fails to capture the authentic linguistic styles and relational dynamics found in real human conversations. To address this gap, we introduce SI-Bench, a novel benchmark designed to evaluate aspects of social intelligence in LLMs. Grounded in broad social science theories, SI-Bench contains 2,221 authentic multi-turn dialogues collected from a social networking application. We further selected a subset of 312 dialogues for manual annotation across 8 major models. The experiments show that SOTA models have surpassed the human expert in process reasoning under complex social situations, yet they still fall behind humans in reply quality. Moreover, introducing Chain-of-Thought (CoT) reasoning may degrade the performance of LLMs in social dialogue tasks. All datasets are openly available at https://github.com/SI-Bench/SI-Bench.git.
- Abstract(参考訳): 大型言語モデル (LLMs) が人為的な能力を発達するにつれて、人間と対話する自律的なエージェントとして展開されつつある。
しかし、現実的で複雑な社会的相互作用における彼らのパフォーマンスを評価することは、依然として大きな課題である。
これまでのほとんどの研究は、エージェントとエージェントの相互作用をシミュレートしてデータセットを構築しており、実際の人間の会話に見られる言語的なスタイルや関係のダイナミクスを捉えることに失敗している。
このギャップに対処するために,LLMにおける社会的知能の側面を評価するための新しいベンチマークであるSI-Benchを紹介する。
SI-Benchは幅広い社会科学理論に基づいており、ソーシャルネットワーキングアプリケーションから収集された2,221の真のマルチターン対話を含んでいる。
さらに8つの主要なモデルにまたがる手動アノテーションのための312のダイアログのサブセットを選択した。
実験の結果、複雑な社会的状況下でのプロセス推論において、SOTAモデルが人間の専門家を上回る結果となった。
さらに,社会対話タスクにおけるLLMの性能を低下させる要因として,CoT推論の導入がある。
すべてのデータセットはhttps://github.com/SI-Bench/SI-Bench.gitで公開されている。
関連論文リスト
- LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions [4.819825467587802]
本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。
私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。
以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-14T23:57:54Z) - SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。
SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。
また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文 参考訳(メタデータ) (2025-06-05T05:51:35Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。