論文の概要: IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2208.03431v1
- Date: Sat, 6 Aug 2022 02:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:21:11.310349
- Title: IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation
- Title(参考訳): IVT:3D Pose Estimationのためのエンド・ツー・エンドのインスタンス誘導型ビデオトランス
- Authors: Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu
- Abstract要約: ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 6.270047084514142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video 3D human pose estimation aims to localize the 3D coordinates of human
joints from videos. Recent transformer-based approaches focus on capturing the
spatiotemporal information from sequential 2D poses, which cannot model the
contextual depth feature effectively since the visual depth features are lost
in the step of 2D pose estimation. In this paper, we simplify the paradigm into
an end-to-end framework, Instance-guided Video Transformer (IVT), which enables
learning spatiotemporal contextual depth information from visual features
effectively and predicts 3D poses directly from video frames. In particular, we
firstly formulate video frames as a series of instance-guided tokens and each
token is in charge of predicting the 3D pose of a human instance. These tokens
contain body structure information since they are extracted by the guidance of
joint offsets from the human center to the corresponding body joints. Then,
these tokens are sent into IVT for learning spatiotemporal contextual depth. In
addition, we propose a cross-scale instance-guided attention mechanism to
handle the variational scales among multiple persons. Finally, the 3D poses of
each person are decoded from instance-guided tokens by coordinate regression.
Experiments on three widely-used 3D pose estimation benchmarks show that the
proposed IVT achieves state-of-the-art performances.
- Abstract(参考訳): video 3d human pose estimationは、ビデオから人間の関節の3d座標をローカライズすることを目的としている。
近年の変圧器を用いた手法では、2次元ポーズ推定のステップで視覚深度特徴が失われるため、文脈深度特徴を効果的にモデル化できない2次元ポーズからの時空間情報の取り込みに焦点が当てられている。
本稿では,このパラダイムを,視覚的特徴から時空間深度情報を効果的に学習し,映像フレームから直接3Dポーズを予測する,エンドツーエンドのフレームワークであるインスタンス誘導ビデオ変換器(IVT)に単純化する。
特に、まず、ビデオフレームを一連のインスタンス誘導トークンとして定式化し、各トークンが人間のインスタンスの3dポーズを予測する役割を担います。
これらのトークンは、人中心から人体関節への関節オフセットの誘導によって抽出されるため、体構造情報を含む。
そして、これらのトークンをIVTに送信し、時空間深度を学習する。
また,複数人間の変動尺度を扱うために,クロススケールのインスタンス誘導型注意機構を提案する。
最後に、各人物の3Dポーズを座標回帰によりインスタンス誘導トークンから復号する。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
関連論文リスト
- 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network [12.968650885640127]
従来のヒトのポーズ推定法は2次元画像の特徴や連続した2次元アノテーションに頼っていた。
本稿では,LDARのみを入力として使用するLPFormerという,エンドツーエンドの3次元ポーズ推定のための第1のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T19:20:15Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。