論文の概要: Lifting Transformer for 3D Human Pose Estimation in Video
- arxiv url: http://arxiv.org/abs/2103.14304v1
- Date: Fri, 26 Mar 2021 07:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:43:31.129598
- Title: Lifting Transformer for 3D Human Pose Estimation in Video
- Title(参考訳): ビデオにおける3次元ポーズ推定のための昇降変圧器
- Authors: Wenhao Li, Hong Liu, Runwei Ding, Mengyuan Liu, Pichao Wang
- Abstract要約: 本稿では,3次元ポーズ推定のための新しいトランスフォーマーアーキテクチャLifting Transformerを提案する。
バニラトランスフォーマーエンコーダ(VTE)は、2次元ポーズシーケンスの長距離依存性をモデル化するために用いられる。
修正されたVTEは、STE(Strided Transformer Encoder)と呼ばれ、VTEの出力に基づいて構築されます。
- 参考スコア(独自算出の注目度): 27.005291611674377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite great progress in video-based 3D human pose estimation, it is still
challenging to learn a discriminative single-pose representation from redundant
sequences. To this end, we propose a novel Transformer-based architecture,
called Lifting Transformer, for 3D human pose estimation to lift a sequence of
2D joint locations to a 3D pose. Specifically, a vanilla Transformer encoder
(VTE) is adopted to model long-range dependencies of 2D pose sequences. To
reduce redundancy of the sequence and aggregate information from local context,
fully-connected layers in the feed-forward network of VTE are replaced with
strided convolutions to progressively reduce the sequence length. The modified
VTE is termed as strided Transformer encoder (STE) and it is built upon the
outputs of VTE. STE not only significantly reduces the computation cost but
also effectively aggregates information to a single-vector representation in a
global and local fashion. Moreover, a full-to-single supervision scheme is
employed at both the full sequence scale and single target frame scale,
applying to the outputs of VTE and STE, respectively. This scheme imposes extra
temporal smoothness constraints in conjunction with the single target frame
supervision. The proposed architecture is evaluated on two challenging
benchmark datasets, namely, Human3.6M and HumanEva-I, and achieves
state-of-the-art results with much fewer parameters.
- Abstract(参考訳): ビデオに基づく3次元ポーズ推定の進歩にもかかわらず、冗長なシーケンスから識別的な単一目的表現を学習することは依然として困難である。
そこで本研究では,人間の3次元ポーズ推定システム「Lifting Transformer」を用いて,2次元関節位置列を3次元ポーズに引き上げる新しいトランスフォーマーアーキテクチャを提案する。
具体的には、バニラトランスフォーマーエンコーダ(VTE)を用いて、2Dポーズシーケンスの長距離依存性をモデル化する。
シーケンスの冗長性を低減し、局所的なコンテキストから情報を集約するために、vteのフィードフォワードネットワーク内の完全連結層をストレート畳み込みに置き換え、シーケンス長を漸進的に短縮する。
修正されたVTEはstrided Transformer encoder (STE)と呼ばれ、VTEの出力に基づいて構築される。
STEは計算コストを大幅に削減するだけでなく、グローバルかつローカルな方法で単一のベクトル表現に情報を効果的に集約する。
さらに、フルシーケンススケールと単一ターゲットフレームスケールの両方でフル・ツー・シングルの監視スキームを採用し、それぞれVTEとSTEの出力に適用する。
このスキームは、単一の目標フレームの監督とともに、余分な時間的滑らかさの制約を課す。
提案するアーキテクチャは2つの挑戦的なベンチマークデータセット、human3.6mとhumaneva-iで評価され、より少ないパラメータで最先端の結果が得られる。
関連論文リスト
- SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR [52.964721233679406]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation [4.603321798937854]
Volumetric Transformer Pose estimator (VTP) はマルチビュー・マルチパーソン・ヒューマン・ポーズ推定のための最初の3Dトランスフォーマー・フレームワークである。
VTPは、すべてのカメラビューの2Dキーポイントから機能を集約し、3Dボクセル空間における関係をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2022-05-25T09:26:42Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。