論文の概要: SocialGesture: Delving into Multi-person Gesture Understanding
- arxiv url: http://arxiv.org/abs/2504.02244v1
- Date: Thu, 03 Apr 2025 03:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:40.369969
- Title: SocialGesture: Delving into Multi-person Gesture Understanding
- Title(参考訳): Social Gesture: マルチパーソナライズされたジェスチャー理解
- Authors: Xu Cao, Pranav Virupaksha, Wenqi Jia, Bolin Lai, Fiona Ryan, Sangmin Lee, James M. Rehg,
- Abstract要約: SocialGestureは、マルチパーソンジェスチャー分析に特化した最初の大規模データセットである。
SocialGestureはさまざまな自然なシナリオを備え、複数のジェスチャー解析タスクをサポートする。
- 参考スコア(独自算出の注目度): 24.407821757676615
- License:
- Abstract: Previous research in human gesture recognition has largely overlooked multi-person interactions, which are crucial for understanding the social context of naturally occurring gestures. This limitation in existing datasets presents a significant challenge in aligning human gestures with other modalities like language and speech. To address this issue, we introduce SocialGesture, the first large-scale dataset specifically designed for multi-person gesture analysis. SocialGesture features a diverse range of natural scenarios and supports multiple gesture analysis tasks, including video-based recognition and temporal localization, providing a valuable resource for advancing the study of gesture during complex social interactions. Furthermore, we propose a novel visual question answering (VQA) task to benchmark vision language models'(VLMs) performance on social gesture understanding. Our findings highlight several limitations of current gesture recognition models, offering insights into future directions for improvement in this field. SocialGesture is available at huggingface.co/datasets/IrohXu/SocialGesture.
- Abstract(参考訳): 人間のジェスチャー認識に関するこれまでの研究は、自然発生のジェスチャーの社会的文脈を理解するために不可欠である、多人数インタラクションをほとんど見落としてきた。
既存のデータセットにおけるこの制限は、人間のジェスチャーを言語や音声などの他のモダリティと整合させる上で大きな課題となる。
この問題に対処するために、マルチパーソンジェスチャー分析に特化した最初の大規模データセットであるSocialGestureを紹介する。
SocialGestureはさまざまな自然なシナリオを備えており、ビデオベースの認識や時間的ローカライゼーションを含む複数のジェスチャー分析タスクをサポートしており、複雑な社会的相互作用におけるジェスチャーの研究を促進する貴重なリソースを提供する。
さらに,視覚言語モデル(VLM)のパフォーマンスを社会的ジェスチャー理解上で評価するための新しい視覚的質問応答(VQA)タスクを提案する。
本研究は,現在のジェスチャ認識モデルのいくつかの限界を浮き彫りにし,この分野での今後の方向性について考察した。
SocialGesture は huggingface.co/datasets/IrohXu/SocialGesture で利用可能である。
関連論文リスト
- Survey on Hand Gesture Recognition from Visual Input [2.1591725778863555]
ハンドジェスチャ認識は人間とコンピュータの相互作用の需要が増大する中で重要な研究領域となっている。
最近の研究、利用可能なソリューション、ベンチマークデータセットを包括的にカバーする調査はほとんどない。
本研究は,様々なカメラ入力データから手の動きと3次元手ポーズ認識の最新の進歩を調べることで,このギャップに対処する。
論文 参考訳(メタデータ) (2025-01-21T09:23:22Z) - From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition [59.57095498284501]
我々は,textbfContextual textbfSocial textbfRelationships (textbfConSoR) を社会的認知の観点から認識する新しいアプローチを提案する。
画像ごとの社会的関係を考慮した社会認識記述言語プロンプトを構築した。
印象的なことに、ConSoRは従来の手法を上回り、Person-in-Social-Context(PISC)データセットでは12.2%、Person-in-Photo-Album(PIPA)ベンチマークでは9.8%向上している。
論文 参考訳(メタデータ) (2024-06-12T16:02:28Z) - Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文 参考訳(メタデータ) (2023-01-13T00:20:05Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Didn't see that coming: a survey on non-verbal social human behavior
forecasting [47.99589136455976]
近年,非言語的社会的行動予測が研究コミュニティの関心を集めている。
人間とロボットの相互作用や社会的に認識された人間のモーション生成への直接的な応用は、非常に魅力的な分野である。
本稿では,複数の対話エージェントに対する行動予測問題を,社会的信号予測と人間の動作予測の分野の統合を目的とした汎用的な方法で定義する。
論文 参考訳(メタデータ) (2022-03-04T18:25:30Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。