論文の概要: A Unified Framework for Human-centric Point Cloud Video Understanding
- arxiv url: http://arxiv.org/abs/2403.20031v1
- Date: Fri, 29 Mar 2024 07:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:15:12.246540
- Title: A Unified Framework for Human-centric Point Cloud Video Understanding
- Title(参考訳): 人間中心のポイントクラウドビデオ理解のための統一フレームワーク
- Authors: Yiteng Xu, Kecheng Ye, Xiao Han, Yiming Ren, Xinge Zhu, Yuexin Ma,
- Abstract要約: 人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。
本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。
本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 23.91555808792291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric Point Cloud Video Understanding (PVU) is an emerging field focused on extracting and interpreting human-related features from sequences of human point clouds, further advancing downstream human-centric tasks and applications. Previous works usually focus on tackling one specific task and rely on huge labeled data, which has poor generalization capability. Considering that human has specific characteristics, including the structural semantics of human body and the dynamics of human motions, we propose a unified framework to make full use of the prior knowledge and explore the inherent features in the data itself for generalized human-centric point cloud video understanding. Extensive experiments demonstrate that our method achieves state-of-the-art performance on various human-related tasks, including action recognition and 3D pose estimation. All datasets and code will be released soon.
- Abstract(参考訳): 人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間関連の機能を抽出し、解釈することに焦点を当てた、新たな分野である。
従来の作業は通常、特定のタスクに取り組むことに集中しており、巨大なラベル付きデータに依存しており、一般化能力は乏しい。
人体の構造的意味論や人間の動作のダイナミクスなど,人間に特有の特徴があることを考慮し,従来の知識を十分に活用し,データ自体に固有の特徴を探求する統一的な枠組みを提案する。
大規模実験により,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能が得られた。
すべてのデータセットとコードはまもなくリリースされる。
関連論文リスト
- HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - Expressive Forecasting of 3D Whole-body Human Motions [38.93700642077312]
私たちは初めて、全身の人間のポーズ予測フレームワークを定式化した。
我々のモデルは、クロスコンテキストアライメント(XCA)とクロスコンテキストインタラクション(XCI)の2つの重要な構成要素を含んでいる。
我々は,新たに導入した大規模ベンチマークの広範な実験を行い,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T09:09:46Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Deep Learning Technique for Human Parsing: A Survey and Outlook [5.236995853909988]
本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。
我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。
この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
論文 参考訳(メタデータ) (2023-01-01T12:39:57Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - A Multi-viewpoint Outdoor Dataset for Human Action Recognition [3.522154868524807]
我々は,YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提案する。
データセットは、20の動的なヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。
全体のベースライン動作認識精度は74.0%である。
論文 参考訳(メタデータ) (2021-10-07T14:50:43Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。