Fugu-MT 論文翻訳(概要): Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer

論文の概要: Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer

arxiv url: http://arxiv.org/abs/2303.09681v3
Date: Wed, 10 May 2023 23:50:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 17:50:49.530194
Title: Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer
Title（参考訳）: スパイキング時空間変圧器によるイベントベースヒューマンポーズ追跡
Authors: Shihao Zou, Yuxuan Mu, Xinxin Zuo, Sen Wang, Li Cheng
Abstract要約: イベントベースのポーズトラッキングのための、エンド・ツー・エンドのスパース・ディープ・アプローチを提案する。イベントのみから3Dのポーズトラッキングが取得されたのはこれが初めてである。提案手法はFLOPSの80%を大幅に削減する。
参考スコア（独自算出の注目度）: 20.01080114455066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Event camera, as an emerging biologically-inspired vision sensor for capturing motion dynamics, presents new potential for 3D human pose tracking, or video-based 3D human pose estimation. However, existing works in pose tracking either require the presence of additional gray-scale images to establish a solid starting pose, or ignore the temporal dependencies all together by collapsing segments of event streams to form static event frames. Meanwhile, although the effectiveness of Artificial Neural Networks (ANNs, a.k.a. dense deep learning) has been showcased in many event-based tasks, the use of ANNs tends to neglect the fact that compared to the dense frame-based image sequences, the occurrence of events from an event camera is spatiotemporally much sparser. Motivated by the above mentioned issues, we present in this paper a dedicated end-to-end sparse deep learning approach for event-based pose tracking: 1) to our knowledge this is the first time that 3D human pose tracking is obtained from events only, thus eliminating the need of accessing to any frame-based images as part of input; 2) our approach is based entirely upon the framework of Spiking Neural Networks (SNNs), which consists of Spike-Element-Wise (SEW) ResNet and a novel Spiking Spatiotemporal Transformer; 3) a large-scale synthetic dataset is constructed that features a broad and diverse set of annotated 3D human motions, as well as longer hours of event stream data, named SynEventHPD. Empirical experiments demonstrate that, with superior performance over the state-of-the-art (SOTA) ANNs counterparts, our approach also achieves a significant computation reduction of 80% in FLOPS. Furthermore, our proposed method also outperforms SOTA SNNs in the regression task of human pose tracking. Our implementation is available at https://github.com/JimmyZou/HumanPoseTracking_SNN and dataset will be released upon paper acceptance.
Abstract（参考訳）: イベントカメラは、動きのダイナミクスを捉えるための生物学的にインスパイアされた視覚センサーとして登場し、3Dのポーズトラッキングやビデオベースの人間のポーズ推定の新しい可能性を示す。しかし、ポーズトラッキングにおける既存の作業では、確固とした開始姿勢を確立するために、追加のグレースケールイメージが必要か、イベントストリームのセグメントを分解して静的なイベントフレームを形成することで、一時的な依存関係を全て無視するかのどちらかである。一方、多くのイベントベースタスクにおいて、ニューラルネットワーク(ANN)の有効性が示されてきたが、ANNの使用は、高密度フレームベースの画像シーケンスと比較して、イベントカメラからのイベントの発生が時空間的にはるかに小さいという事実を無視する傾向にある。上記の課題に触発されて、イベントベースのポーズトラッキングのための、エンドツーエンドのスパース深層学習アプローチを提案する。 1) 当社の知る限りでは,3次元人物ポーズ追跡がイベントのみから得られるのはこれが初めてであり,入力の一部としてフレームベースの画像にアクセスする必要がなくなる。 2)本手法はスパイク要素ワイズ(SEW)ResNetとスパイク時空間変換器からなるスパイクニューラルネットワーク(SNN)の枠組みに基づいている。 3) 大規模合成データセットを構築し, 広範かつ多種多様なアノテートされた3次元動作と, SynEventHPD と呼ばれる長時間のイベントストリームデータを特徴付ける。実験により,SOTA(State-of-the-art (SOTA) ANN) よりも優れた性能を示すとともに,FLOPSの80%の計算量削減を実現している。さらに,提案手法は,人間のポーズトラッキングの回帰タスクにおいて,SOTA SNNよりも優れていた。私たちの実装はhttps://github.com/JimmyZou/HumanPoseTracking_SNNで公開されています。

関連論文リスト

Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition [31.528007074074043]
本稿では、プライバシ保護人間行動認識(HAR)のための、ニューラルネットワーク(SNN)とイベントベースのカメラとの有望な相互作用について検討する。時間セグメントベースSNN(textitTS-SNN)と3D畳み込みSNN(textit3D-SNN)の2つの新しいフレームワークを紹介した。イベントベースHARにおけるさらなる研究を促進するため、高解像度のCeleX-Vイベントカメラを用いて収集したデータセット、textitFallingDetection-CeleXを作成する。
論文参考訳（メタデータ） (2025-03-21T13:31:16Z)
GazeSCRNN: Event-based Near-eye Gaze Tracking using a Spiking Neural Network [0.0]
この研究は、イベントベースの近目視追跡用に設計された新しい畳み込みリカレントニューラルネットワークであるGazeSCRNNを紹介する。モデル処理は、Adaptive Leaky-Integrate-and-Fire(ALIF)ニューロンと、時間データのためのハイブリッドアーキテクチャを使用して、DVSカメラからのイベントストリームを処理する。最も正確なモデルは6.034degdegの平均角誤差(MAE)と2.094mmの平均角誤差(MPE)である。
論文参考訳（メタデータ） (2025-03-20T10:32:15Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
3D Human Scan With A Moving Event Camera [7.734104968315144]
イベントカメラは高時間分解能と高ダイナミックレンジの利点がある。本稿では,3次元ポーズ推定とヒューマンメッシュ復元のためのイベントベース手法を提案する。
論文参考訳（メタデータ） (2024-04-12T14:34:24Z)
EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks [14.046487518350792]
スパイキングニューラルネットワーク(SNN)は、スパーススパイク通信を通じてイベント駆動の操作を行う。本稿では,Residual potential Dropout (RPD) と Spike-Aware Training (SAT) を導入する。我々の方法では、Gen1データセットで4.4%のmAP改善が得られ、パラメータは38%減少し、3つのタイムステップしか必要としない。
論文参考訳（メタデータ） (2024-03-19T09:34:11Z)
Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文参考訳（メタデータ） (2024-01-30T03:00:25Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
EventTransAct: A video transformer-based framework for Event-camera based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文参考訳（メタデータ） (2023-08-25T23:51:07Z)
Optical flow estimation from event-based cameras and spiking neural networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文参考訳（メタデータ） (2023-02-13T16:17:54Z)
HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文参考訳（メタデータ） (2022-11-19T17:09:50Z)
A Temporal Densely Connected Recurrent Network for Event-based Human Pose Estimation [24.367222637492787]
イベントカメラは、バイオインスパイアされた視覚センサーで、ピクセルごとの明るさが非同期に変化する。本稿では,不完全情報の問題に対処する,新しい密結合型再帰型アーキテクチャを提案する。この再帰的アーキテクチャにより、時間ステップをまたいだ逐次的だけでなく、非逐次的幾何的整合性も明示的にモデル化できる。
論文参考訳（メタデータ） (2022-09-15T04:08:18Z)
Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-06T23:45:58Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
EventHPE: Event-based 3D Human Pose and Shape Estimation [33.197194879047956]
イベントカメラは、イベントとして動く物体のダイナミックスをキャプチャする、新しいイメージングセンサーである。本研究では,EventHPEと呼ばれる2段階のディープラーニング手法を提案する。最初のステージであるFlowNetは、教師なしの学習によってトレーニングされ、イベントから光学フローを推論する。第2段のShapeNetは、第2段のShapeNetへの入力として供給され、3次元の人間の形状を推定する。
論文参考訳（メタデータ） (2021-08-15T21:40:19Z)
Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文参考訳（メタデータ） (2021-06-17T08:08:11Z)
Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。 PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文参考訳（メタデータ） (2021-06-07T16:36:50Z)
Differentiable Event Stream Simulator for Non-Rigid 3D Tracking [82.56690776283428]
我々の微分可能シミュレータは、イベントストリームから変形可能なオブジェクトの非剛性3D追跡を可能にする。様々な種類の非剛体物体に対するアプローチの有効性を示し, 既存の非剛体3次元追跡手法と比較した。
論文参考訳（メタデータ） (2021-04-30T17:58:07Z)
Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文参考訳（メタデータ） (2020-10-13T15:24:28Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文参考訳（メタデータ） (2020-03-20T08:39:49Z)
Event-Based Angular Velocity Regression with Spiking Networks [51.145071093099396]
スパイキングニューラルネットワーク(SNN)は、数値ではなく時間スパイクとして伝達される情報を処理する。本稿では,イベントカメラから与えられた事象の時間回帰問題を初めて提案する。角速度回帰を行うためにSNNをうまく訓練できることが示される。
論文参考訳（メタデータ） (2020-03-05T17:37:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。