論文の概要: Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos
- arxiv url: http://arxiv.org/abs/2308.10334v1
- Date: Sun, 20 Aug 2023 18:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:57:04.923428
- Title: Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos
- Title(参考訳): coordinate transformer: ビデオから単段マルチパーソンメッシュをリカバリする
- Authors: Haoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C.
Kampffmeyer, Liang Lin, Xiaodan Liang
- Abstract要約: ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
- 参考スコア(独自算出の注目度): 91.44553585470688
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-person 3D mesh recovery from videos is a critical first step towards
automatic perception of group behavior in virtual reality, physical therapy and
beyond. However, existing approaches rely on multi-stage paradigms, where the
person detection and tracking stages are performed in a multi-person setting,
while temporal dynamics are only modeled for one person at a time.
Consequently, their performance is severely limited by the lack of inter-person
interactions in the spatial-temporal mesh recovery, as well as by detection and
tracking defects. To address these challenges, we propose the Coordinate
transFormer (CoordFormer) that directly models multi-person spatial-temporal
relations and simultaneously performs multi-mesh recovery in an end-to-end
manner. Instead of partitioning the feature map into coarse-scale patch-wise
tokens, CoordFormer leverages a novel Coordinate-Aware Attention to preserve
pixel-level spatial-temporal coordinate information. Additionally, we propose a
simple, yet effective Body Center Attention mechanism to fuse position
information. Extensive experiments on the 3DPW dataset demonstrate that
CoordFormer significantly improves the state-of-the-art, outperforming the
previously best results by 4.2%, 8.8% and 4.7% according to the MPJPE, PAMPJPE,
and PVE metrics, respectively, while being 40% faster than recent video-based
approaches. The released code can be found at
https://github.com/Li-Hao-yuan/CoordFormer.
- Abstract(参考訳): ビデオからのマルチパーソン3dメッシュリカバリは、バーチャルリアリティ、理学療法などにおけるグループ行動の自動知覚への重要な第一歩だ。
しかし、既存のアプローチはマルチステージパラダイムに依存しており、人物検出と追跡段階はマルチパーソン設定で実行され、時間的ダイナミクスは一度に1人だけモデル化される。
したがって、その性能は、時空間メッシュリカバリにおける対人インタラクションの欠如と、検出と追跡の欠陥によって著しく制限される。
これらの課題に対処するために,マルチパーソン空間-時間関係を直接モデル化し,エンドツーエンドでマルチメッシュリカバリを同時に行う座標変換器(coordformer)を提案する。
フィーチャーマップを粗いパッチワイズトークンに分割する代わりに、coordformerは新しい座標認識注意力を利用してピクセルレベルの空間-時間座標情報を保存する。
さらに,位置情報を融合するためのシンプルで効果的な身体中心注意機構を提案する。
3DPWデータセットの大規模な実験により、CoordFormerは最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値によると、これまでで最も良い結果の4.2%、8.8%、そして4.7%を上回った。
リリースされたコードはhttps://github.com/Li-Hao-yuan/CoordFormerで見ることができる。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction [106.06256351200068]
本稿では,補助的なタスクを伴うモデル学習フレームワークを提案する。
補助作業では、部分体関節の座標はマスキングまたはノイズ付加によって損なわれる。
本稿では,不完全かつ破損した動作データを処理できる新しい補助適応変換器を提案する。
論文 参考訳(メタデータ) (2023-08-17T12:26:11Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。