論文の概要: Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer
- arxiv url: http://arxiv.org/abs/2303.09681v3
- Date: Wed, 10 May 2023 23:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:50:49.530194
- Title: Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer
- Title(参考訳): スパイキング時空間変圧器によるイベントベースヒューマンポーズ追跡
- Authors: Shihao Zou, Yuxuan Mu, Xinxin Zuo, Sen Wang, Li Cheng
- Abstract要約: イベントベースのポーズトラッキングのための、エンド・ツー・エンドのスパース・ディープ・アプローチを提案する。
イベントのみから3Dのポーズトラッキングが取得されたのはこれが初めてである。
提案手法はFLOPSの80%を大幅に削減する。
- 参考スコア(独自算出の注目度): 20.01080114455066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event camera, as an emerging biologically-inspired vision sensor for
capturing motion dynamics, presents new potential for 3D human pose tracking,
or video-based 3D human pose estimation. However, existing works in pose
tracking either require the presence of additional gray-scale images to
establish a solid starting pose, or ignore the temporal dependencies all
together by collapsing segments of event streams to form static event frames.
Meanwhile, although the effectiveness of Artificial Neural Networks (ANNs,
a.k.a. dense deep learning) has been showcased in many event-based tasks, the
use of ANNs tends to neglect the fact that compared to the dense frame-based
image sequences, the occurrence of events from an event camera is
spatiotemporally much sparser. Motivated by the above mentioned issues, we
present in this paper a dedicated end-to-end sparse deep learning approach for
event-based pose tracking: 1) to our knowledge this is the first time that 3D
human pose tracking is obtained from events only, thus eliminating the need of
accessing to any frame-based images as part of input; 2) our approach is based
entirely upon the framework of Spiking Neural Networks (SNNs), which consists
of Spike-Element-Wise (SEW) ResNet and a novel Spiking Spatiotemporal
Transformer; 3) a large-scale synthetic dataset is constructed that features a
broad and diverse set of annotated 3D human motions, as well as longer hours of
event stream data, named SynEventHPD. Empirical experiments demonstrate that,
with superior performance over the state-of-the-art (SOTA) ANNs counterparts,
our approach also achieves a significant computation reduction of 80% in FLOPS.
Furthermore, our proposed method also outperforms SOTA SNNs in the regression
task of human pose tracking. Our implementation is available at
https://github.com/JimmyZou/HumanPoseTracking_SNN and dataset will be released
upon paper acceptance.
- Abstract(参考訳): イベントカメラは、動きのダイナミクスを捉えるための生物学的にインスパイアされた視覚センサーとして登場し、3Dのポーズトラッキングやビデオベースの人間のポーズ推定の新しい可能性を示す。
しかし、ポーズトラッキングにおける既存の作業では、確固とした開始姿勢を確立するために、追加のグレースケールイメージが必要か、イベントストリームのセグメントを分解して静的なイベントフレームを形成することで、一時的な依存関係を全て無視するかのどちらかである。
一方、多くのイベントベースタスクにおいて、ニューラルネットワーク(ANN)の有効性が示されてきたが、ANNの使用は、高密度フレームベースの画像シーケンスと比較して、イベントカメラからのイベントの発生が時空間的にはるかに小さいという事実を無視する傾向にある。
上記の課題に触発されて、イベントベースのポーズトラッキングのための、エンドツーエンドのスパース深層学習アプローチを提案する。
1) 当社の知る限りでは,3次元人物ポーズ追跡がイベントのみから得られるのはこれが初めてであり,入力の一部としてフレームベースの画像にアクセスする必要がなくなる。
2)本手法はスパイク要素ワイズ(SEW)ResNetとスパイク時空間変換器からなるスパイクニューラルネットワーク(SNN)の枠組みに基づいている。
3) 大規模合成データセットを構築し, 広範かつ多種多様なアノテートされた3次元動作と, SynEventHPD と呼ばれる長時間のイベントストリームデータを特徴付ける。
実験により,SOTA(State-of-the-art (SOTA) ANN) よりも優れた性能を示すとともに,FLOPSの80%の計算量削減を実現している。
さらに,提案手法は,人間のポーズトラッキングの回帰タスクにおいて,SOTA SNNよりも優れていた。
私たちの実装はhttps://github.com/JimmyZou/HumanPoseTracking_SNNで公開されています。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - 3D Human Scan With A Moving Event Camera [7.734104968315144]
イベントカメラは高時間分解能と高ダイナミックレンジの利点がある。
本稿では,3次元ポーズ推定とヒューマンメッシュ復元のためのイベントベース手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:34:24Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - A Temporal Densely Connected Recurrent Network for Event-based Human
Pose Estimation [24.367222637492787]
イベントカメラは、バイオインスパイアされた視覚センサーで、ピクセルごとの明るさが非同期に変化する。
本稿では,不完全情報の問題に対処する,新しい密結合型再帰型アーキテクチャを提案する。
この再帰的アーキテクチャにより、時間ステップをまたいだ逐次的だけでなく、非逐次的幾何的整合性も明示的にモデル化できる。
論文 参考訳(メタデータ) (2022-09-15T04:08:18Z) - EventHPE: Event-based 3D Human Pose and Shape Estimation [33.197194879047956]
イベントカメラは、イベントとして動く物体のダイナミックスをキャプチャする、新しいイメージングセンサーである。
本研究では,EventHPEと呼ばれる2段階のディープラーニング手法を提案する。
最初のステージであるFlowNetは、教師なしの学習によってトレーニングされ、イベントから光学フローを推論する。
第2段のShapeNetは、第2段のShapeNetへの入力として供給され、3次元の人間の形状を推定する。
論文 参考訳(メタデータ) (2021-08-15T21:40:19Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。