論文の概要: SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23713v1
- Date: Thu, 29 May 2025 17:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.051508
- Title: SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models
- Title(参考訳): SocialMaze: 大規模言語モデルにおける社会的推論の評価ベンチマーク
- Authors: Zixiang Xu, Yanbo Wang, Yue Huang, Jiayi Ye, Haomin Zhuang, Zirui Song, Lang Gao, Chenxi Wang, Zhaorun Chen, Yujun Zhou, Sixian Li, Wang Pan, Yue Zhao, Jieyu Zhao, Xiangliang Zhang, Xiuying Chen,
- Abstract要約: 社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
- 参考スコア(独自算出の注目度): 41.68365456601248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied to socially grounded tasks, such as online community moderation, media content analysis, and social reasoning games. Success in these contexts depends on a model's social reasoning ability - the capacity to interpret social contexts, infer others' mental states, and assess the truthfulness of presented information. However, there is currently no systematic evaluation framework that comprehensively assesses the social reasoning capabilities of LLMs. Existing efforts often oversimplify real-world scenarios and consist of tasks that are too basic to challenge advanced models. To address this gap, we introduce SocialMaze, a new benchmark specifically designed to evaluate social reasoning. SocialMaze systematically incorporates three core challenges: deep reasoning, dynamic interaction, and information uncertainty. It provides six diverse tasks across three key settings: social reasoning games, daily-life interactions, and digital community platforms. Both automated and human validation are used to ensure data quality. Our evaluation reveals several key insights: models vary substantially in their ability to handle dynamic interactions and integrate temporally evolving information; models with strong chain-of-thought reasoning perform better on tasks requiring deeper inference beyond surface-level cues; and model reasoning degrades significantly under uncertainty. Furthermore, we show that targeted fine-tuning on curated reasoning examples can greatly improve model performance in complex social scenarios. The dataset is publicly available at: https://huggingface.co/datasets/MBZUAI/SocialMaze
- Abstract(参考訳): 大規模言語モデル(LLM)は、オンラインコミュニティのモデレーション、メディアコンテンツ分析、社会的推論ゲームなど、社会的に根ざしたタスクにますます適用されている。
これらの文脈における成功は、モデルの社会的推論能力(社会的文脈を解釈し、他人の精神状態を推測し、提示された情報の真偽を評価する能力)に依存する。
しかし,LLMの社会的推論能力を包括的に評価する体系的評価フレームワークは今のところ存在しない。
既存の取り組みは、しばしば現実世界のシナリオを単純化し、高度なモデルに挑戦するにはあまりにも基本的なタスクで構成されます。
このギャップに対処するために、社会推論を評価するために特別に設計された新しいベンチマークSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
自動検証と人的検証の両方が、データ品質を保証するために使用される。
我々の評価では、動的相互作用を処理し、時間的に進化する情報を統合できるモデル、強い連鎖推論を持つモデルは、表面レベルの手がかり以上の深い推論を必要とするタスクでより良く機能し、モデル推論は不確実性の下で著しく低下する。
さらに, 複雑な社会的シナリオにおけるモデル性能を大幅に向上させることができることを示す。
データセットは、https://huggingface.co/datasets/MBzuAI/SocialMazeで公開されています。
関連論文リスト
- R^3-VQA: "Read the Room" by Video Social Reasoning [26.694917467429207]
「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
論文 参考訳(メタデータ) (2025-05-07T05:55:45Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
ソーシャルゲノム(Social Genome)は、マルチモーダルモデルのきめ細かいきめ細やかな社会的推論能力を示す最初のベンチマークである。
相互作用の272のビデオと、これらの相互作用に関する推論に関連する1,486人の注釈付き推論トレースを含んでいる。
社会ゲノムはまた、社会的推論における外部知識を研究するための最初のモデリング課題である。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Social-LLM: Modeling User Behavior at Scale using Language Models and
Social Network Data [13.660150473547766]
本稿では,ユーザ検出タスクにおけるソーシャルネットワークデータのモデリングに適した新しいアプローチを提案する。
提案手法は,局所的なソーシャルネットワークのインタラクションを,大規模言語モデルの能力と統合する。
実世界の7つのソーシャル・ネットワーク・データセットにまたがって、我々の手法を徹底的に評価する。
論文 参考訳(メタデータ) (2023-12-31T05:13:13Z) - DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding [60.84356161106069]
複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
論文 参考訳(メタデータ) (2023-10-24T06:21:34Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - Social Processes: Self-Supervised Forecasting of Nonverbal Cues in
Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。
ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。
本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-28T18:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。