Fugu-MT 論文翻訳(概要): Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet

論文の概要: Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet

arxiv url: http://arxiv.org/abs/2207.04320v1
Date: Sat, 9 Jul 2022 18:42:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 14:26:29.453641
Title: Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet
Title（参考訳）: Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器
Authors: Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo
Abstract要約: マルチパーソンによるRGBビデオからのポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。 1つの推論で3つのタスクを同時に実行するフレームワークであるSnipperを提案する。 Snipperの3つの挑戦的な公開データセットに対する有効性を示す。
参考スコア（独自算出の注目度）: 24.207370535884856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-person pose understanding from RGB videos includes three complex tasks: pose estimation, tracking and motion forecasting. Among these three tasks, pose estimation and tracking are correlated, and tracking is crucial to motion forecasting. Most existing works either focus on a single task or employ cascaded methods to solve each individual task separately. In this paper, we propose Snipper, a framework to perform multi-person 3D pose estimation, tracking and motion forecasting simultaneously in a single inference. Specifically, we first propose a deformable attention mechanism to aggregate spatiotemporal information from video snippets. Building upon this deformable attention, a visual transformer is learned to encode the spatiotemporal features from multi-frame images and to decode informative pose features to update multi-person pose queries. Last, these queries are regressed to predict multi-person pose trajectories and future motions in one forward pass. In the experiments, we show the effectiveness of Snipper on three challenging public datasets where a generic model rivals specialized state-of-art baselines for pose estimation, tracking, and forecasting. Code is available at \href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper}.
Abstract（参考訳）: RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。これら3つのタスクのうち、ポーズ推定とトラッキングは相関しており、トラッキングはモーション予測に不可欠である。ほとんどの既存の作業は1つのタスクに集中するか、個別のタスクを個別に解くためにカスケードされたメソッドを使う。本稿では,複数人の3次元ポーズ推定,追跡,動作予測を同時に行うフレームワークであるsnipperを提案する。具体的には、まず、ビデオスニペットから時空間情報を集約する変形可能な注意機構を提案する。この変形可能な注意に基づいて、視覚トランスフォーマは、多フレーム画像から時空間的特徴をエンコードし、情報的なポーズ特徴を復号して多人数のポーズクエリを更新することを学習する。最後に、これらのクエリは、複数人のポーズの軌跡と1つの前方通過における将来の動きを予測するために後退される。実験では,ポーズ推定,追跡,予測のための最先端のベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。コードは \href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper} で公開されている。

関連論文リスト

CoMotion: Concurrent Multi-person 3D Motion [88.27833466761234]
単眼カメラストリームから複数の人物の詳細な3Dポーズを検出し,追跡するためのアプローチを提案する。私たちのモデルは、フレーム単位の強い検出と、フレームからフレームまでの人々の追跡のための学習されたポーズ更新の両方を実行します。我々は、擬似ラベル付きアノテーションを利用して、多数の画像とビデオのデータセットをトレーニングし、3次元ポーズ推定精度で最先端のシステムにマッチするモデルを生成する。
論文参考訳（メタデータ） (2025-04-16T15:40:15Z)
Multi-person Physics-based Pose Estimation for Combat Sports [0.689728655482787]
スパースマルチカメラを用いた戦闘スポーツにおける正確な3次元ポーズ推定のための新しい枠組みを提案する。提案手法は,トランスフォーマーを用いたトップダウン手法により,堅牢なマルチビュー2Dポーズトラッキングを実現する。我々はさらに、多対人物理に基づく軌道最適化のステップを導入することにより、ポーズリアリズムとロバスト性をさらに強化する。
論文参考訳（メタデータ） (2025-04-11T00:08:14Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction [22.29257945966914]
我々は3次元多目的追跡・軌道予測(StreamMOTP)のためのストリーミング統合フレームワークを提案する。ストリーミング方式でモデルを構築し、メモリバンクを利用して、追跡対象の長期潜伏機能をより効果的に保存し、活用する。また,予測トラジェクタの品質と一貫性を2ストリーム予測器で改善する。
論文参考訳（メタデータ） (2024-06-28T11:35:35Z)
DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文参考訳（メタデータ） (2024-06-06T18:12:04Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文参考訳（メタデータ） (2023-06-23T15:38:22Z)
DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文参考訳（メタデータ） (2023-04-02T16:40:42Z)
Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文参考訳（メタデータ） (2023-03-15T09:29:03Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Kinematic-aware Hierarchical Attention Network for Human Pose Estimation in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文参考訳（メタデータ） (2022-11-29T01:46:11Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文参考訳（メタデータ） (2021-04-06T03:49:35Z)
Deep Reinforcement Learning for Active Human Pose Estimation [35.229529080763925]
完全トレーニング可能な深層強化学習型アクティブポーズ推定アーキテクチャであるPose-DRLを紹介する。提案モデルでは,強い多視点ベースラインと比較して,より正確なポーズ推定を行う視点を選択することを学習している。
論文参考訳（メタデータ） (2020-01-07T13:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。