論文の概要: Tracking People with 3D Representations
- arxiv url: http://arxiv.org/abs/2111.07868v1
- Date: Mon, 15 Nov 2021 16:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 20:45:47.215452
- Title: Tracking People with 3D Representations
- Title(参考訳): 3D表現で人を追跡する
- Authors: Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Jitendra
Malik
- Abstract要約: ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
- 参考スコア(独自算出の注目度): 78.97070307547283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach for tracking multiple people in video. Unlike
past approaches which employ 2D representations, we focus on using 3D
representations of people, located in three-dimensional space. To this end, we
develop a method, Human Mesh and Appearance Recovery (HMAR) which in addition
to extracting the 3D geometry of the person as a SMPL mesh, also extracts
appearance as a texture map on the triangles of the mesh. This serves as a 3D
representation for appearance that is robust to viewpoint and pose changes.
Given a video clip, we first detect bounding boxes corresponding to people, and
for each one, we extract 3D appearance, pose, and location information using
HMAR. These embedding vectors are then sent to a transformer, which performs
spatio-temporal aggregation of the representations over the duration of the
sequence. The similarity of the resulting representations is used to solve for
associations that assigns each person to a tracklet. We evaluate our approach
on the Posetrack, MuPoTs and AVA datasets. We find that 3D representations are
more effective than 2D representations for tracking in these settings, and we
obtain state-of-the-art performance. Code and results are available at:
https://brjathu.github.io/T3DP.
- Abstract(参考訳): ビデオ中の複数の人物を追跡する新しい手法を提案する。
2次元表現を用いた過去のアプローチとは異なり、3次元空間に位置する人々の3次元表現を使うことに重点を置いている。
この目的のために,人間の3次元形状をSMPLメッシュとして抽出すると同時に,メッシュの三角形上のテクスチャマップとして外観を抽出するHuman Mesh and Appearance Recovery (HMAR) 法を開発した。
これは、視点に頑丈な外観の3D表現として機能し、変化を起こす。
ビデオクリップが与えられたら、まず人に対応するバウンディングボックスを検出し、それぞれに3Dの外観、ポーズ、位置情報をHMARを用いて抽出する。
これらの埋め込みベクトルはトランスフォーマーに送信され、シーケンスの持続時間にわたって表現を時空間的に集約する。
結果の表現の類似性は、各人物をトラックレットに割り当てるアソシエーションの解決に使用される。
我々はPosetrack, MuPoTs, AVAデータセットに対するアプローチを評価する。
その結果,3次元表現は2次元表現よりも精度が高く,最先端のパフォーマンスが得られることがわかった。
コードと結果は、https://brjathu.github.io/T3DP.com/で公開されている。
関連論文リスト
- Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Tracking People by Predicting 3D Appearance, Location & Pose [78.97070307547283]
私たちはまず、1つのフレームから3Dまで、堅牢な方法で人々を持ち上げます。
人を追跡すると、時間とともに3Dの観察結果をトラックレット表現で収集する。
これらのモデルを用いて、トラックレットの将来状態を予測します。
論文 参考訳(メタデータ) (2021-12-08T18:57:15Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。