論文の概要: Spot The Ball: A Benchmark for Visual Social Inference
- arxiv url: http://arxiv.org/abs/2511.00261v1
- Date: Fri, 31 Oct 2025 21:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.697325
- Title: Spot The Ball: A Benchmark for Visual Social Inference
- Title(参考訳): Spot the Ball:ビジュアルソーシャル推論のためのベンチマーク
- Authors: Neha Balamurugan, Sarah Wu, Adam Chun, Gabe Gaw, Cristobal Eyzaguirre, Tobias Gerstenberg,
- Abstract要約: 人間は視覚的な社会的推論、微妙な行動の手がかりから隠れた要素を推測する能力に優れています。
この能力は、人間の日常的な社会的推論を促進し、より人間的なAIエージェントの開発に不可欠である。
視覚言語モデルにおける視覚的社会的推論を評価するための挑戦的なベンチマークであるSpot The Ballを紹介する。
- 参考スコア(独自算出の注目度): 3.54631941020091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at visual social inference, the ability to infer hidden elements of a scene from subtle behavioral cues such as other people's gaze, pose, and orientation. This ability drives everyday social reasoning in humans and is critical for developing more human-like AI agents. We introduce Spot The Ball, a challenging benchmark for evaluating visual social inference in vision-language models (VLMs) using sports as a test domain. The task is to localize a removed sports ball from soccer, basketball, and volleyball images. We present a curated evaluation set with human baselines and a scalable pipeline for generating additional test items. We evaluate four state-of-the-art VLMs (Gemini, GPT, LLaMA, Qwen) using three prompting strategies, finding that humans are consistently two to three times more accurate (20-34%) than models ($\leq$ 17%) across all sports. Our analyses show that models rely on superficial spatial heuristics--such as guessing near the image center or nearby players--while humans leverage social cues like gaze direction and body pose. These findings reveal a persistent human-model gap in visual social reasoning and underscore the need for architectures that explicitly encode structured behavioral cues to achieve robust, human-like inference.
- Abstract(参考訳): 人間は視覚的社会的推論において優れており、他人の視線、ポーズ、方向といった微妙な行動の手がかりからシーンの隠れた要素を推測する能力がある。
この能力は、人間の日常的な社会的推論を駆動し、より人間的なAIエージェントの開発に不可欠である。
本稿では,スポーツをテスト領域として,視覚言語モデル(VLM)の視覚的社会的推論を評価するための挑戦的なベンチマークであるSpot The Ballを紹介する。
課題は、サッカー、バスケットボール、バレーボールの画像から取り除かれたスポーツボールをローカライズすることである。
人間のベースラインと、追加のテスト項目を生成するスケーラブルなパイプラインを備えたキュレートされた評価セットを提案する。
我々は,3つのプロンプト戦略を用いて4つの最先端VLM(Gemini, GPT, LLaMA, Qwen)を評価し,すべてのスポーツにおいて,人間はモデルよりも2~3倍(20~34%)の精度(\leq$17%)が一貫していることを発見した。
分析の結果、画像中心付近や近隣のプレイヤーを推測するなど、表面的な空間的ヒューリスティックス(空間的ヒューリスティックス)にモデルが依存していることが判明した。
これらの結果は、視覚的社会的推論において、永続的な人-モデルギャップを明らかにし、堅牢で人間に似た推論を実現するために、構造化された行動手順を明示的にエンコードするアーキテクチャの必要性を浮き彫りにしている。
関連論文リスト
- HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding [57.763735969891286]
具体的エージェントに対するヒューマン・イン・シーン・サーチ・アンサーリング(HIS-QA)のためのヒューマン・イン・シーン・理解のベンチマークのための新しいタスクを提案する。
HIS-QAは、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えることを要求する。
広帯域でのHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
論文 参考訳(メタデータ) (2025-03-17T09:10:50Z) - Social EgoMesh Estimation [7.021561988248192]
身体の社会中心性評価のための新しい枠組み(SEE-ME)を提案する。
我々のアプローチは、潜在確率拡散モデルのみを用いて着用者のメッシュを推定する最初の方法である。
全体として、SEE-MEは現在の最高の手法を超え、ポーズ推定誤差(MPJPE)を53%削減する。
論文 参考訳(メタデータ) (2024-11-07T10:28:49Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Perceiving Humans: from Monocular 3D Localization to Social Distancing [93.03056743850141]
本稿では,人間の3次元位置と身体の向きを1つの画像から知覚する,コスト効率の高い視覚ベースの新しい手法を提案する。
我々は,「社会的距離」という概念を,単純な位置に基づくルールとは対照的に,社会的相互作用の一形態として再考することが可能であることを示す。
論文 参考訳(メタデータ) (2020-09-01T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。