論文の概要: Simple 3D Pose Features Support Human and Machine Social Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.03988v1
- Date: Thu, 06 Nov 2025 02:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.275901
- Title: Simple 3D Pose Features Support Human and Machine Social Scene Understanding
- Title(参考訳): 人間と機械のソーシャルシーン理解を支援するシンプルな3Dマップ機能
- Authors: Wenshuo Qin, Leyla Isik,
- Abstract要約: 人間は3次元空間的ポーズ情報に頼り、社会的相互作用を判断する。
日常的な人間の行動を描いた短いビデオクリップで3次元関節位置を抽出する。
興味深いことに、3Dのジョイントポジションは、現在のAIビジョンモデルよりも優れています。
- 参考スコア(独自算出の注目度): 1.411894456054802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can quickly and effortlessly extract a variety of information about others' social interactions from visual input, ranging from visuospatial cues like whether two people are facing each other to higher-level information. Yet, the computations supporting these abilities remain poorly understood, and social interaction recognition continues to challenge even the most advanced AI vision systems. Here, we hypothesized that humans rely on 3D visuospatial pose information to make social interaction judgments, which is absent in most AI vision models. To test this, we combined state-of-the-art pose and depth estimation algorithms to extract 3D joint positions of people in short video clips depicting everyday human actions and compared their ability to predict human social interaction judgments with current AI vision models. Strikingly, 3D joint positions outperformed most current AI vision models, revealing that key social information is available in explicit body position but not in the learned features of most vision models, including even the layer-wise embeddings of the pose models used to extract joint positions. To uncover the critical pose features humans use to make social judgments, we derived a compact set of 3D social pose features describing only the 3D position and direction of faces in the videos. We found that these minimal descriptors matched the predictive strength of the full set of 3D joints and significantly improved the performance of off-the-shelf AI vision models when combined with their embeddings. Moreover, the degree to which 3D social pose features were represented in each off-the-shelf AI vision model predicted the model's ability to match human social judgments. Together, our findings provide strong evidence that human social scene understanding relies on explicit representations of 3D pose and can be supported by simple, structured visuospatial primitives.
- Abstract(参考訳): 人間は、視覚的な入力から、二人が向かい合っているかどうかのような視覚空間的な手がかりから、より高いレベルの情報まで、他人の社会的相互作用に関する様々な情報を迅速かつ努力的に抽出することができる。
しかし、これらの能力を支える計算はあまり理解されておらず、社会的相互作用の認識は、最も高度なAIビジョンシステムでさえも挑戦し続けている。
ここでは,人間は3次元空間的情報に頼り,ほとんどのAIビジョンモデルでは欠落している社会的相互作用を判断する。
これをテストするために、私たちは最先端のポーズと深さ推定アルゴリズムを組み合わせて、日々の人間の行動を描いた短いビデオクリップで人々の3D関節の位置を抽出し、人間の社会的相互作用の判断を現在のAIビジョンモデルと比較した。
興味深いことに、3Dのジョイントポジションは、現在のAIビジョンモデルよりも優れており、キーとなるソーシャル情報は明示的なボディポジションで利用できるが、ほとんどのヴィジョンモデルの学習された特徴には含まれていない。
人間の社会的判断に使用する批判的なポーズを明らかにするために,ビデオ内の顔の位置と方向のみを記述する3Dソーシャルポーズのコンパクトなセットを作成した。
これらの最小記述子は,全3次元関節の予測強度と一致し,組込みと組み合わせることで,既製のAIビジョンモデルの性能が大幅に向上した。
さらに、市販のAIビジョンモデル毎に3次元の社会的ポーズの特徴が表現される程度は、人間の社会的判断にマッチするモデルの能力を予測した。
同時に,人間の社会的場面理解が3次元ポーズの明示的な表現に依存し,単純で構造化された空間的プリミティブによって支援できることを示す。
関連論文リスト
- Social 3D Scene Graphs: Modeling Human Actions and Relations for Interactive Service Robots [5.8503433899583905]
ソーシャル3Dシーングラフ(Social 3D Scene Graphs)は、人間、その属性、活動、環境内の関係をローカルとリモートの両方でキャプチャする拡張3Dシーングラフである。
我々の表現は、人間と環境の関係についての人間の行動予測と推論を改善し、社会的に知的なロボットへの道を歩む。
論文 参考訳(メタデータ) (2025-09-29T16:00:40Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。