論文の概要: Social Caption: Evaluating Social Understanding in Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.14569v1
- Date: Wed, 21 Jan 2026 01:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.200616
- Title: Social Caption: Evaluating Social Understanding in Multimodal Models
- Title(参考訳): 社会的キャプション:マルチモーダルモデルにおける社会的理解の評価
- Authors: Bhaavanaa Thumu, Leena Mathur, Youssouf Kebe, Louis-Philippe Morency,
- Abstract要約: 社会的理解能力は、人間の社会的相互作用を解釈するために、マルチモーダルな大言語モデル(MLLM)にとって不可欠である。
本稿では,MLLMの社会的理解能力を評価するための相互作用理論に基づくフレームワークであるSocial Captionを紹介する。
我々は,スケール,建築設計,音声コンテキストなどの社会的理解におけるモデル性能に影響を与える要因を分析した。
- 参考スコア(独自算出の注目度): 23.008965893705767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social understanding abilities are crucial for multimodal large language models (MLLMs) to interpret human social interactions. We introduce Social Caption, a framework grounded in interaction theory to evaluate social understanding abilities of MLLMs along three dimensions: Social Inference (SI), the ability to make accurate inferences about interactions; Holistic Social Analysis (HSA), the ability to generate comprehensive descriptions of interactions; Directed Social Analysis (DSA), the ability to extract relevant social information from interactions. We analyze factors influencing model performance in social understanding, such as scale, architectural design, and spoken context. Experiments with MLLM judges contribute insights about scaling automated evaluation of multimodal social understanding.
- Abstract(参考訳): 社会的理解能力は、人間の社会的相互作用を解釈するために、マルチモーダルな大言語モデル(MLLM)にとって不可欠である。
本稿では,MLLMの社会的理解能力を評価するためのインタラクション理論に基づくフレームワークであるSocial Captionを紹介する。社会推論(SI),対話に関する正確な推論を行う能力,HSA(Holistic Social Analysis),対話の包括的記述を生成する能力,DSA(Directed Social Analysis),対話から関連する社会的情報を抽出する能力である。
我々は,スケール,建築設計,音声コンテキストなどの社会的理解におけるモデル性能に影響を与える要因を分析した。
MLLMの審査員による実験は、マルチモーダル社会理解の自動評価のスケーリングに関する洞察に貢献する。
関連論文リスト
- SocialNLI: A Dialogue-Centric Social Inference Dataset [49.60157928163403]
第1回社会対話推論データセットSocialNLIを紹介する。
SocialNLIは、複雑な社会的ニュアンスの中心となるために手書きの対話文からなる。
多段階の反実的推論による推論モデルの評価を行う。
論文 参考訳(メタデータ) (2025-10-06T23:42:01Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文 参考訳(メタデータ) (2025-05-29T17:47:36Z) - R^3-VQA: "Read the Room" by Video Social Reasoning [26.694917467429207]
「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
論文 参考訳(メタデータ) (2025-05-07T05:55:45Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。