論文の概要: Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet
- arxiv url: http://arxiv.org/abs/2207.04320v1
- Date: Sat, 9 Jul 2022 18:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:26:29.453641
- Title: Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet
- Title(参考訳): Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器
- Authors: Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo
- Abstract要約: マルチパーソンによるRGBビデオからのポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。
1つの推論で3つのタスクを同時に実行するフレームワークであるSnipperを提案する。
Snipperの3つの挑戦的な公開データセットに対する有効性を示す。
- 参考スコア(独自算出の注目度): 24.207370535884856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person pose understanding from RGB videos includes three complex tasks:
pose estimation, tracking and motion forecasting. Among these three tasks, pose
estimation and tracking are correlated, and tracking is crucial to motion
forecasting. Most existing works either focus on a single task or employ
cascaded methods to solve each individual task separately. In this paper, we
propose Snipper, a framework to perform multi-person 3D pose estimation,
tracking and motion forecasting simultaneously in a single inference.
Specifically, we first propose a deformable attention mechanism to aggregate
spatiotemporal information from video snippets. Building upon this deformable
attention, a visual transformer is learned to encode the spatiotemporal
features from multi-frame images and to decode informative pose features to
update multi-person pose queries. Last, these queries are regressed to predict
multi-person pose trajectories and future motions in one forward pass. In the
experiments, we show the effectiveness of Snipper on three challenging public
datasets where a generic model rivals specialized state-of-art baselines for
pose estimation, tracking, and forecasting. Code is available at
\href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper}.
- Abstract(参考訳): RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。
これら3つのタスクのうち、ポーズ推定とトラッキングは相関しており、トラッキングはモーション予測に不可欠である。
ほとんどの既存の作業は1つのタスクに集中するか、個別のタスクを個別に解くためにカスケードされたメソッドを使う。
本稿では,複数人の3次元ポーズ推定,追跡,動作予測を同時に行うフレームワークであるsnipperを提案する。
具体的には、まず、ビデオスニペットから時空間情報を集約する変形可能な注意機構を提案する。
この変形可能な注意に基づいて、視覚トランスフォーマは、多フレーム画像から時空間的特徴をエンコードし、情報的なポーズ特徴を復号して多人数のポーズクエリを更新することを学習する。
最後に、これらのクエリは、複数人のポーズの軌跡と1つの前方通過における将来の動きを予測するために後退される。
実験では,ポーズ推定,追跡,予測のための最先端のベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。
コードは \href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper} で公開されている。
関連論文リスト
- XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving [7.616422495497465]
不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-17T03:35:13Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Deep Reinforcement Learning for Active Human Pose Estimation [35.229529080763925]
完全トレーニング可能な深層強化学習型アクティブポーズ推定アーキテクチャであるPose-DRLを紹介する。
提案モデルでは,強い多視点ベースラインと比較して,より正確なポーズ推定を行う視点を選択することを学習している。
論文 参考訳(メタデータ) (2020-01-07T13:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。