論文の概要: R^3-VQA: "Read the Room" by Video Social Reasoning
- arxiv url: http://arxiv.org/abs/2505.04147v1
- Date: Wed, 07 May 2025 05:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.983653
- Title: R^3-VQA: "Read the Room" by Video Social Reasoning
- Title(参考訳): R^3-VQA:ビデオソーシャル推論による「部屋を読む」
- Authors: Lixing Niu, Jiapeng Li, Xingping Yu, Shu Wang, Ruining Feng, Bo Wu, Ping Wei, Yisen Wang, Lifeng Fan,
- Abstract要約: 「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
- 参考スコア(独自算出の注目度): 26.694917467429207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Read the room" is a significant social reasoning capability in human daily life. Humans can infer others' mental states from subtle social cues. Previous social reasoning tasks and datasets lack complexity (e.g., simple scenes, basic interactions, incomplete mental state variables, single-step reasoning, etc.) and fall far short of the challenges present in real-life social interactions. In this paper, we contribute a valuable, high-quality, and comprehensive video dataset named R^3-VQA with precise and fine-grained annotations of social events and mental states (i.e., belief, intent, desire, and emotion) as well as corresponding social causal chains in complex social scenarios. Moreover, we include human-annotated and model-generated QAs. Our task R^3-VQA includes three aspects: Social Event Understanding, Mental State Estimation, and Social Causal Reasoning. As a benchmark, we comprehensively evaluate the social reasoning capabilities and consistencies of current state-of-the-art large vision-language models (LVLMs). Comprehensive experiments show that (i) LVLMs are still far from human-level consistent social reasoning in complex social scenarios; (ii) Theory of Mind (ToM) prompting can help LVLMs perform better on social reasoning tasks. We provide some of our dataset and codes in supplementary material and will release our full dataset and codes upon acceptance.
- Abstract(参考訳): 「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
人間は微妙な社会的手がかりから他人の精神状態を推測することができる。
従来の社会的推論タスクやデータセットには複雑さ(単純なシーン、基本的な相互作用、不完全な精神状態変数、シングルステップ推論など)が欠けており、現実の社会的相互作用で生じる課題には程遠い。
本稿では、社会的事象や精神状態(信念、意図、欲求、感情)の精密かつきめ細かなアノテーションと、複雑な社会的シナリオにおける対応する社会的因果連鎖に、R^3-VQAという価値ある、高品質で包括的なビデオデータセットを貢献する。
さらに、人間のアノテーションとモデル生成QAも含んでいます。
我々のタスクR^3-VQAは、社会的事象理解、精神状態推定、社会的因果推論の3つの側面を含む。
ベンチマークとして、現在最先端の大規模視覚言語モデル(LVLM)の社会的推論能力と構成性を総合的に評価する。
総合的な実験は
(i)LVLMは、複雑な社会的シナリオにおいて、人間レベルの一貫した社会的推論には程遠い。
(二)心の理論(ToM)は、LVLMが社会的推論タスクにおいてより良いパフォーマンスを発揮するのに役立つ。
補足的な資料でデータセットとコードをいくつか提供し、受け入れ次第、完全なデータセットとコードをリリースします。
関連論文リスト
- EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。
EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文 参考訳(メタデータ) (2024-10-08T16:55:51Z) - DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding [60.84356161106069]
複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
論文 参考訳(メタデータ) (2023-10-24T06:21:34Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Characterizing Datasets for Social Visual Question Answering, and the
New TinySocial Dataset [0.7313653675718068]
ソーシャルインテリジェンスには、ビデオを見て、社会的および理論関連コンテンツに関する質問に答える機能が含まれている。
社会的視覚的質問応答(社会的VQA)は、人間とAIエージェントの両方における社会的推論を研究するための貴重な方法論として浮上している。
本稿では,ソーシャルVQAデータセットの作成と特徴付け方法について議論する。
論文 参考訳(メタデータ) (2020-10-08T03:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。