論文の概要: GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions
- arxiv url: http://arxiv.org/abs/2605.15764v1
- Date: Fri, 15 May 2026 09:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.233667
- Title: GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions
- Title(参考訳): GRASP:多人数非言語インタラクションにおける社会的推論の学習
- Authors: Junho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg,
- Abstract要約: 本稿では,大規模ソーシャル推論データセットGRASPを紹介する。
GraSPには290Kの質問対があり、46Kのビデオの合計は749時間で、視線、ジェスチャー、および共同視線-妊娠推論にまたがる16カテゴリの分類によって構成されている。
本稿では,これらのソーシャルイベントを用いた学習信号であるソーシャルグラウンドイング・リワード(SGR)を提案する。
- 参考スコア(独自算出の注目度): 44.26597369595731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.
- Abstract(参考訳): 社会的相互作用を理解するには、微妙な非言語的手がかりを推論する必要があるが、現在のマルチモーダルな大規模言語モデル(MLLM)は、誰が誰と対話しているかを多対人ビデオで特定できないことが多い。
本稿では,大規模ソーシャル推論データセットGRASPを紹介する。
GRASPには、視線、ジェスチャー、および関節の視線を合わせた16カテゴリーの分類で編成された46Kのビデオと、GRASP-Benchによる評価のための290Kの質問対が含まれている。
孤立した手がかりや高いレベルの社会的QAに焦点を当てた以前のリソースとは異なり、GRASPはアイデンティティに一貫性のある視線軌跡、デリケートなジェスチャー、およびそれらの共同構成から社会イベントへの質問を作成する。
さらに,これらのソーシャルイベントを用いた学習信号であるソーシャルグラウンドイング・リワード(SGR)を提案する。
実験の結果、SGRはGRASP-Benchの性能を改善し、関連するソーシャルビデオQAベンチマークではゼロショット性能を維持した。
関連論文リスト
- SocialDirector: Training-Free Social Interaction Control for Multi-Person Video Generation [25.88676013839077]
ビデオ生成は急速に進歩し、テキストや画像のプロンプトからビデオを生成する。
映画制作とソーシャルロボティクスは、リッチなソーシャルインタラクションを備えた多人数ビデオの要求をますます高めている。
既存のモデルでは、誰がどのアクションを実行し、いつ発生し、誰が指示されたかなど、インタラクションを明示的に制御することができない。
クロスアテンションマップによる生成モデルを強化する,トレーニング不要なインタラクションコントローラであるSocialDirectorを提案する。
論文 参考訳(メタデータ) (2026-05-11T07:01:38Z) - SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。
SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。
また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文 参考訳(メタデータ) (2025-06-05T05:51:35Z) - SocialGesture: Delving into Multi-person Gesture Understanding [24.407821757676615]
SocialGestureは、マルチパーソンジェスチャー分析に特化した最初の大規模データセットである。
SocialGestureはさまざまな自然なシナリオを備え、複数のジェスチャー解析タスクをサポートする。
論文 参考訳(メタデータ) (2025-04-03T03:21:06Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - Love in Action: Gamifying Public Video Cameras for Fostering Social Relationships in Real World [15.049706359599666]
公共空間に設置したビデオカメラを利用したボディーランゲージベースのソーシャルゲーム「Love in Action」(LIA)を作成する。
27人の参加者による2週間のフィールドスタディは、彼らの社会的友情を著しく改善したことを示している。
公共空間におけるソーシャル化のための新しいコミュニケーション媒体として,パブリックビデオカメラの可能性を明らかにするために,ユーザ体験を調査した。
論文 参考訳(メタデータ) (2024-10-31T02:38:40Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。