論文の概要: R^3-VQA: "Read the Room" by Video Social Reasoning
- arxiv url: http://arxiv.org/abs/2505.04147v1
- Date: Wed, 07 May 2025 05:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.983653
- Title: R^3-VQA: "Read the Room" by Video Social Reasoning
- Title(参考訳): R^3-VQA:ビデオソーシャル推論による「部屋を読む」
- Authors: Lixing Niu, Jiapeng Li, Xingping Yu, Shu Wang, Ruining Feng, Bo Wu, Ping Wei, Yisen Wang, Lifeng Fan,
- Abstract要約: 「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
- 参考スコア(独自算出の注目度): 26.694917467429207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Read the room" is a significant social reasoning capability in human daily life. Humans can infer others' mental states from subtle social cues. Previous social reasoning tasks and datasets lack complexity (e.g., simple scenes, basic interactions, incomplete mental state variables, single-step reasoning, etc.) and fall far short of the challenges present in real-life social interactions. In this paper, we contribute a valuable, high-quality, and comprehensive video dataset named R^3-VQA with precise and fine-grained annotations of social events and mental states (i.e., belief, intent, desire, and emotion) as well as corresponding social causal chains in complex social scenarios. Moreover, we include human-annotated and model-generated QAs. Our task R^3-VQA includes three aspects: Social Event Understanding, Mental State Estimation, and Social Causal Reasoning. As a benchmark, we comprehensively evaluate the social reasoning capabilities and consistencies of current state-of-the-art large vision-language models (LVLMs). Comprehensive experiments show that (i) LVLMs are still far from human-level consistent social reasoning in complex social scenarios; (ii) Theory of Mind (ToM) prompting can help LVLMs perform better on social reasoning tasks. We provide some of our dataset and codes in supplementary material and will release our full dataset and codes upon acceptance.
- Abstract(参考訳): 「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
人間は微妙な社会的手がかりから他人の精神状態を推測することができる。
従来の社会的推論タスクやデータセットには複雑さ(単純なシーン、基本的な相互作用、不完全な精神状態変数、シングルステップ推論など)が欠けており、現実の社会的相互作用で生じる課題には程遠い。
本稿では、社会的事象や精神状態(信念、意図、欲求、感情)の精密かつきめ細かなアノテーションと、複雑な社会的シナリオにおける対応する社会的因果連鎖に、R^3-VQAという価値ある、高品質で包括的なビデオデータセットを貢献する。
さらに、人間のアノテーションとモデル生成QAも含んでいます。
我々のタスクR^3-VQAは、社会的事象理解、精神状態推定、社会的因果推論の3つの側面を含む。
ベンチマークとして、現在最先端の大規模視覚言語モデル(LVLM)の社会的推論能力と構成性を総合的に評価する。
総合的な実験は
(i)LVLMは、複雑な社会的シナリオにおいて、人間レベルの一貫した社会的推論には程遠い。
(二)心の理論(ToM)は、LVLMが社会的推論タスクにおいてより良いパフォーマンスを発揮するのに役立つ。
補足的な資料でデータセットとコードをいくつか提供し、受け入れ次第、完全なデータセットとコードをリリースします。
関連論文リスト
- SocialSim: Towards Socialized Simulation of Emotional Support Conversation [68.5026443005566]
感情的サポートの会話をシミュレートする新しいフレームワークSocialSimを紹介する。
SocialSimは、社会的情報開示と社会的認識という、社会的相互作用の重要な側面を統合している。
大規模合成ESCコーパスであるSSConvを構築し,クラウドソーシングESCデータを超える品質を実現する。
論文 参考訳(メタデータ) (2025-06-20T05:24:40Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文 参考訳(メタデータ) (2025-05-29T17:47:36Z) - EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。
EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文 参考訳(メタデータ) (2024-10-08T16:55:51Z) - From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition [59.57095498284501]
我々は,textbfContextual textbfSocial textbfRelationships (textbfConSoR) を社会的認知の観点から認識する新しいアプローチを提案する。
画像ごとの社会的関係を考慮した社会認識記述言語プロンプトを構築した。
印象的なことに、ConSoRは従来の手法を上回り、Person-in-Social-Context(PISC)データセットでは12.2%、Person-in-Photo-Album(PIPA)ベンチマークでは9.8%向上している。
論文 参考訳(メタデータ) (2024-06-12T16:02:28Z) - DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding [60.84356161106069]
複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
論文 参考訳(メタデータ) (2023-10-24T06:21:34Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Characterizing Datasets for Social Visual Question Answering, and the
New TinySocial Dataset [0.7313653675718068]
ソーシャルインテリジェンスには、ビデオを見て、社会的および理論関連コンテンツに関する質問に答える機能が含まれている。
社会的視覚的質問応答(社会的VQA)は、人間とAIエージェントの両方における社会的推論を研究するための貴重な方法論として浮上している。
本稿では,ソーシャルVQAデータセットの作成と特徴付け方法について議論する。
論文 参考訳(メタデータ) (2020-10-08T03:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。