論文の概要: Efficient Human Pose Estimation via 3D Event Point Cloud
- arxiv url: http://arxiv.org/abs/2206.04511v1
- Date: Thu, 9 Jun 2022 13:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:57:33.926987
- Title: Efficient Human Pose Estimation via 3D Event Point Cloud
- Title(参考訳): 3次元イベントポイントクラウドによる効率的なポーズ推定
- Authors: Jiaan Chen, Hao Shi, Yaozu Ye, Kailun Yang, Lei Sun, Kaiwei Wang
- Abstract要約: 私たちは3Dイベントポイントクラウドから直接2Dのポーズを推定する最初の人です。
そこで我々は,NX化イベントポイントクラウド(NX化イベントポイントクラウド)という新しいイベント表現を提案し,小さな時間スライスと同じ位置でイベントを集約する。
DHP19データセット上のMPJPE3Dの2048点入力82.46mmでPointNetを実現したが,レイテンシは12.29msに過ぎなかった。
- 参考スコア(独自算出の注目度): 10.628192454401553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Pose Estimation (HPE) based on RGB images has experienced a rapid
development benefiting from deep learning. However, event-based HPE has not
been fully studied, which remains great potential for applications in extreme
scenes and efficiency-critical conditions. In this paper, we are the first to
estimate 2D human pose directly from 3D event point cloud. We propose a novel
representation of events, the rasterized event point cloud, aggregating events
on the same position of a small time slice. It maintains the 3D features from
multiple statistical cues and significantly reduces memory consumption and
computation complexity, proved to be efficient in our work. We then leverage
the rasterized event point cloud as input to three different backbones,
PointNet, DGCNN, and Point Transformer, with two linear layer decoders to
predict the location of human keypoints. We find that based on our method,
PointNet achieves promising results with much faster speed, whereas Point
Transfomer reaches much higher accuracy, even close to previous
event-frame-based methods. A comprehensive set of results demonstrates that our
proposed method is consistently effective for these 3D backbone models in
event-driven human pose estimation. Our method based on PointNet with 2048
points input achieves 82.46mm in MPJPE3D on the DHP19 dataset, while only has a
latency of 12.29ms on an NVIDIA Jetson Xavier NX edge computing platform, which
is ideally suitable for real-time detection with event cameras. Code will be
made publicly at https://github.com/MasterHow/EventPointPose.
- Abstract(参考訳): RGB画像に基づくHPE(Human Pose Estimation)は、ディープラーニングによる迅速な開発を経験している。
しかし、イベントベースのHPEは十分に研究されていないため、極端なシーンや効率クリティカルな条件での応用には大きな可能性を秘めている。
本稿では、3dイベントポイントクラウドから直接2d人物のポーズを推定する最初の例である。
本稿では,小さな時間スライスと同じ位置でイベントを集約する,新しいイベント表現,ラスタライズされたイベントポイントクラウドを提案する。
複数の統計的な手がかりから得られた3d機能を維持でき、メモリ消費と計算の複雑さを大幅に削減できます。
次に、ラスタライズドイベントポイントクラウドを、3つの異なるバックボーン(pointnet、dgcnn、point transformer)への入力として活用し、2つの線形層デコーダで人間のキーポイントの位置を予測します。
我々は、pointnetがより高速で有望な結果を得るのに対し、pointtransfomerは以前のイベントフレームベースの方法よりもずっと高い精度に達することを見出した。
その結果,提案手法は3次元バックボーンモデルに対して,イベント駆動型ポーズ推定において一貫して有効であることが示された。
2048点入力のpointnetに基づく手法では、dhp19データセット上でmpjpe3dの82.46mmを実現しているが、イベントカメラによるリアルタイム検出に理想的なnvidia jetson xavier nxエッジコンピューティングプラットフォームでは、レイテンシーが12.29msである。
コードはhttps://github.com/masterhow/eventpointposeで公開される。
関連論文リスト
- SPiKE: 3D Human Pose from Point Cloud Sequences [1.8024397171920885]
3D Human Pose Estimation (HPE) は、RGB画像や深度マップ、点雲などの2次元または3次元表現から、人間の身体のキーポイントを3次元空間内に配置するタスクである。
本稿では,点雲列を用いた3次元HPEの新しい手法であるSPiKEを提案する。
3D HPEのITOPベンチマークの実験では、SPiKEは89.19%のmAPに達し、推論時間を大幅に短縮して最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-09-03T13:22:01Z) - Improving 3D Pose Estimation for Sign Language [38.20064386142944]
この研究は、単一の画像における3次元人間のポーズ復元に対処する。
本稿では,フォワード・キネマティクス(FK)とニューラルネットワークを組み合わせた3次元ポーズの高速かつ有効な予測手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T13:05:10Z) - DELFlow: Dense Efficient Learning of Scene Flow for Large-Scale Point
Clouds [42.64433313672884]
2次元グリッドに3次元座標を格納することで,原点を高密度フォーマットに正規化する。
既存の作業でよく使われるサンプリング操作とは異なり、密度の高い2D表現はほとんどの点を保存する。
また,情報損失問題を緩和する新しいワーププロジェクション手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T16:37:24Z) - SNAKE: Shape-aware Neural 3D Keypoint Field [62.91169625183118]
形状復元には点雲から3Dキーポイントを検出することが重要である。
形状再構成は3次元キーポイント検出に有効か?
本稿では,形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという,教師なしの新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-03T17:58:43Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。