論文の概要: SVBench: Evaluation of Video Generation Models on Social Reasoning
- arxiv url: http://arxiv.org/abs/2512.21507v1
- Date: Thu, 25 Dec 2025 04:44:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:58:54.696819
- Title: SVBench: Evaluation of Video Generation Models on Social Reasoning
- Title(参考訳): SVBench:ソーシャル推論におけるビデオ生成モデルの評価
- Authors: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang,
- Abstract要約: ビデオ生成における社会的推論のための最初のベンチマークを紹介する。
我々は,各実験の推論機構を蒸留する,完全学習不要なエージェントベースパイプラインを開発した。
われわれは,7つの最先端ビデオ生成システムを対象とした大規模な研究を行った。
- 参考スコア(独自算出の注目度): 35.06131184286366
- License:
- Abstract: Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.
- Abstract(参考訳): 最近のテキスト・ビデオ生成モデルは、視覚的リアリズム、動きの忠実さ、テキスト・ビデオのアライメントにおいて顕著な進歩を見せている。
人間の意図、信念、感情、社会的規範を簡潔な視覚的手がかりから断固として推測するのとは異なり、現在のモデルは根底にある因果的論理や心理学的論理を捉えずにリテラルシーンを描画する傾向がある。
このギャップを体系的に評価するために,ビデオ生成における社会的推論のための最初のベンチマークを導入する。
本ベンチマークは,発達心理学と社会心理学から得られた知見に基づいて,精神状態推論,目標指向行動,共同注意,社会的調整,社会行動,社会規範,マルチエージェント戦略など,30の古典的社会認知パラダイムを7つの中核次元にまとめる。
これらのパラダイムを運用するには、完全にトレーニング不要なエージェントベースのパイプラインを開発する。
(i)それぞれの実験の推論機構を蒸留する。
(ii)多様なビデオシナリオを合成する。
三 キューに基づく批評による概念的中立性及び難易度制御を施行し、
(4) 社会的推論の5次元にわたる高容量VLM判定器を用いて生成された映像を評価する。
このフレームワークを用いて、7つの最先端ビデオ生成システムを対象とした大規模な研究を行う。
現代のモデルは表面の可視性に優れるが、意図認識、信念推論、共同注意、社会的推論において体系的に失敗する。
関連論文リスト
- SocialFusion: Addressing Social Degradation in Pre-trained Vision-Language Models [34.928133808112925]
事前学習された視覚言語モデル(VLM)は,複数の社会的知覚タスクを同時に統合し,学習することの難しさを示す。
凍結したビジュアルエンコーダと言語モデルとの間の最小限の接続を学習する統合フレームワークであるSocialFusionを提案する。
以上の結果から,現在のVLM事前学習戦略は一般社会能力獲得に有害である可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-30T23:54:54Z) - Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。
本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。
以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T06:08:41Z) - Social World Models [35.672466808871945]
我々は、新しい構造化社会世界表現形式(S3AP)を導入する。
S3APは、状態、観察、エージェントアクション、精神状態といった社会的相互作用を構造化されたものとして表現する。
S3APは、LLMが5つの社会的推論タスクのソーシャルな物語をよりよく理解するのに役立ちます。
次に、これらの構造化された表現から社会世界モデルを誘導し、将来の社会的ダイナミクスを予測する能力を示す。
論文 参考訳(メタデータ) (2025-08-30T16:52:58Z) - Simulating Generative Social Agents via Theory-Informed Workflow Design [11.992123170134185]
社会エージェントのための体系的設計プロセスを提供する理論インフォームド・フレームワークを提案する。
私たちのフレームワークは、社会的認知理論の原則に基づいており、モチベーション、行動計画、学習という3つの重要なモジュールを導入しています。
実験により, 複雑な条件下での現実的な人間の行動パターンを再現できることが実証された。
論文 参考訳(メタデータ) (2025-08-12T08:14:48Z) - SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文 参考訳(メタデータ) (2025-05-29T17:47:36Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。