論文の概要: Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet
- arxiv url: http://arxiv.org/abs/2207.04320v1
- Date: Sat, 9 Jul 2022 18:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:26:29.453641
- Title: Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet
- Title(参考訳): Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器
- Authors: Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo
- Abstract要約: マルチパーソンによるRGBビデオからのポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。
1つの推論で3つのタスクを同時に実行するフレームワークであるSnipperを提案する。
Snipperの3つの挑戦的な公開データセットに対する有効性を示す。
- 参考スコア(独自算出の注目度): 24.207370535884856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person pose understanding from RGB videos includes three complex tasks:
pose estimation, tracking and motion forecasting. Among these three tasks, pose
estimation and tracking are correlated, and tracking is crucial to motion
forecasting. Most existing works either focus on a single task or employ
cascaded methods to solve each individual task separately. In this paper, we
propose Snipper, a framework to perform multi-person 3D pose estimation,
tracking and motion forecasting simultaneously in a single inference.
Specifically, we first propose a deformable attention mechanism to aggregate
spatiotemporal information from video snippets. Building upon this deformable
attention, a visual transformer is learned to encode the spatiotemporal
features from multi-frame images and to decode informative pose features to
update multi-person pose queries. Last, these queries are regressed to predict
multi-person pose trajectories and future motions in one forward pass. In the
experiments, we show the effectiveness of Snipper on three challenging public
datasets where a generic model rivals specialized state-of-art baselines for
pose estimation, tracking, and forecasting. Code is available at
\href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper}.
- Abstract(参考訳): RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。
これら3つのタスクのうち、ポーズ推定とトラッキングは相関しており、トラッキングはモーション予測に不可欠である。
ほとんどの既存の作業は1つのタスクに集中するか、個別のタスクを個別に解くためにカスケードされたメソッドを使う。
本稿では,複数人の3次元ポーズ推定,追跡,動作予測を同時に行うフレームワークであるsnipperを提案する。
具体的には、まず、ビデオスニペットから時空間情報を集約する変形可能な注意機構を提案する。
この変形可能な注意に基づいて、視覚トランスフォーマは、多フレーム画像から時空間的特徴をエンコードし、情報的なポーズ特徴を復号して多人数のポーズクエリを更新することを学習する。
最後に、これらのクエリは、複数人のポーズの軌跡と1つの前方通過における将来の動きを予測するために後退される。
実験では,ポーズ推定,追跡,予測のための最先端のベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。
コードは \href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper} で公開されている。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction [22.29257945966914]
我々は3次元多目的追跡・軌道予測(StreamMOTP)のためのストリーミング統合フレームワークを提案する。
ストリーミング方式でモデルを構築し、メモリバンクを利用して、追跡対象の長期潜伏機能をより効果的に保存し、活用する。
また,予測トラジェクタの品質と一貫性を2ストリーム予測器で改善する。
論文 参考訳(メタデータ) (2024-06-28T11:35:35Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Deep Reinforcement Learning for Active Human Pose Estimation [35.229529080763925]
完全トレーニング可能な深層強化学習型アクティブポーズ推定アーキテクチャであるPose-DRLを紹介する。
提案モデルでは,強い多視点ベースラインと比較して,より正確なポーズ推定を行う視点を選択することを学習している。
論文 参考訳(メタデータ) (2020-01-07T13:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。