論文の概要: Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer
- arxiv url: http://arxiv.org/abs/2303.09681v5
- Date: Thu, 15 May 2025 14:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:05.926969
- Title: Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer
- Title(参考訳): スパイク時空間変圧器を用いた事象からの高能率3次元人物追跡
- Authors: Shihao Zou, Yuxuan Mu, Wei Ji, Zi-An Wang, Xinxin Zuo, Sen Wang, Weixin Si, Li Cheng,
- Abstract要約: イベントのみに基づく3次元ポーズトラッキングのための,最初のスパーススパイキングニューラルネットワーク(SNN)フレームワークを紹介する。
提案手法では,スパースデータを高密度なフォーマットに変換したり,追加のイメージを組み込む必要がなくなり,入力イベントの本質的にの空間性を完全に活用することが可能になる。
実証実験では、既存の最先端(SOTA)ANN方式よりも、19.1%のFLOPと3.6%のコストエネルギーしか必要とせず、我々のアプローチの優位性を実証した。
- 参考スコア(独自算出の注目度): 23.15179173446486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event camera, as an asynchronous vision sensor capturing scene dynamics, presents new opportunities for highly efficient 3D human pose tracking. Existing approaches typically adopt modern-day Artificial Neural Networks (ANNs), such as CNNs or Transformer, where sparse events are converted into dense images or paired with additional gray-scale images as input. Such practices, however, ignore the inherent sparsity of events, resulting in redundant computations, increased energy consumption, and potentially degraded performance. Motivated by these observations, we introduce the first sparse Spiking Neural Networks (SNNs) framework for 3D human pose tracking based solely on events. Our approach eliminates the need to convert sparse data to dense formats or incorporate additional images, thereby fully exploiting the innate sparsity of input events. Central to our framework is a novel Spiking Spatiotemporal Transformer, which enables bi-directional spatiotemporal fusion of spike pose features and provides a guaranteed similarity measurement between binary spike features in spiking attention. Moreover, we have constructed a large-scale synthetic dataset, SynEventHPD, that features a broad and diverse set of 3D human motions, as well as much longer hours of event streams. Empirical experiments demonstrate the superiority of our approach over existing state-of-the-art (SOTA) ANN-based methods, requiring only 19.1% FLOPs and 3.6% energy cost. Furthermore, our approach outperforms existing SNN-based benchmarks in this task, highlighting the effectiveness of our proposed SNN framework. The dataset will be released upon acceptance, and code can be found at https://github.com/JimmyZou/HumanPoseTracking_SNN.
- Abstract(参考訳): イベントカメラは、シーンダイナミクスをキャプチャする非同期視覚センサとして、高効率な3Dポーズトラッキングのための新たな機会を提供する。
既存のアプローチでは、CNNやTransformerといった現代のニューラルネットワーク(ANN)が採用されている。
しかし、そのようなプラクティスはイベントの本質的にの空間性を無視し、結果として冗長な計算、エネルギー消費の増加、そして潜在的に性能が低下する可能性がある。
これらの観測に触発されて、イベントのみに基づく3次元ポーズトラッキングのための最初のスパーススパイキングニューラルネットワーク(SNN)フレームワークを導入する。
提案手法では,スパースデータを高密度なフォーマットに変換したり,追加のイメージを組み込む必要がなくなり,入力イベントの本質的にの空間性を完全に活用することが可能になる。
スパイクポーズ特徴の双方向時空間融合を可能にするスパイク時空間変換器を開発し,スパイク注意における2次スパイク特徴の類似度を保証した。
さらに,大規模な合成データセットであるSynEventHPDを構築した。
実証実験では、既存の最先端(SOTA)ANN方式よりも、19.1%のFLOPと3.6%のエネルギーコストしか必要とせず、我々のアプローチの優位性を実証した。
さらに,本手法は既存のSNNベースのベンチマークよりも優れており,提案したSNNフレームワークの有効性を強調している。
データセットは受理時にリリースされ、コードはhttps://github.com/JimmyZou/HumanPoseTracking_SNNで見ることができる。
関連論文リスト
- Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition [31.528007074074043]
本稿では、プライバシ保護人間行動認識(HAR)のための、ニューラルネットワーク(SNN)とイベントベースのカメラとの有望な相互作用について検討する。
時間セグメントベースSNN(textitTS-SNN)と3D畳み込みSNN(textit3D-SNN)の2つの新しいフレームワークを紹介した。
イベントベースHARにおけるさらなる研究を促進するため、高解像度のCeleX-Vイベントカメラを用いて収集したデータセット、textitFallingDetection-CeleXを作成する。
論文 参考訳(メタデータ) (2025-03-21T13:31:16Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - 3D Human Scan With A Moving Event Camera [7.734104968315144]
イベントカメラは高時間分解能と高ダイナミックレンジの利点がある。
本稿では,3次元ポーズ推定とヒューマンメッシュ復元のためのイベントベース手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:34:24Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - A Temporal Densely Connected Recurrent Network for Event-based Human
Pose Estimation [24.367222637492787]
イベントカメラは、バイオインスパイアされた視覚センサーで、ピクセルごとの明るさが非同期に変化する。
本稿では,不完全情報の問題に対処する,新しい密結合型再帰型アーキテクチャを提案する。
この再帰的アーキテクチャにより、時間ステップをまたいだ逐次的だけでなく、非逐次的幾何的整合性も明示的にモデル化できる。
論文 参考訳(メタデータ) (2022-09-15T04:08:18Z) - EventHPE: Event-based 3D Human Pose and Shape Estimation [33.197194879047956]
イベントカメラは、イベントとして動く物体のダイナミックスをキャプチャする、新しいイメージングセンサーである。
本研究では,EventHPEと呼ばれる2段階のディープラーニング手法を提案する。
最初のステージであるFlowNetは、教師なしの学習によってトレーニングされ、イベントから光学フローを推論する。
第2段のShapeNetは、第2段のShapeNetへの入力として供給され、3次元の人間の形状を推定する。
論文 参考訳(メタデータ) (2021-08-15T21:40:19Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。