論文の概要: SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation
- arxiv url: http://arxiv.org/abs/2404.15276v1
- Date: Tue, 23 Apr 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.222772
- Title: SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation
- Title(参考訳): SMPLer:単眼の3次元人体形状と姿勢推定のためのモデリング変換器
- Authors: Xiangyu Xu, Lijuan Liu, Shuicheng Yan,
- Abstract要約: この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
- 参考スコア(独自算出の注目度): 74.07836010698801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Transformers for monocular 3D human shape and pose estimation typically have a quadratic computation and memory complexity with respect to the feature length, which hinders the exploitation of fine-grained information in high-resolution features that is beneficial for accurate reconstruction. In this work, we propose an SMPL-based Transformer framework (SMPLer) to address this issue. SMPLer incorporates two key ingredients: a decoupled attention operation and an SMPL-based target representation, which allow effective utilization of high-resolution features in the Transformer. In addition, based on these two designs, we also introduce several novel modules including a multi-scale attention and a joint-aware attention to further boost the reconstruction performance. Extensive experiments demonstrate the effectiveness of SMPLer against existing 3D human shape and pose estimation methods both quantitatively and qualitatively. Notably, the proposed algorithm achieves an MPJPE of 45.2 mm on the Human3.6M dataset, improving upon Mesh Graphormer by more than 10% with fewer than one-third of the parameters. Code and pretrained models are available at https://github.com/xuxy09/SMPLer.
- Abstract(参考訳): 既存のモノラルな3次元人間の形状とポーズ推定のためのトランスフォーマーは、典型的には2次計算とメモリの複雑さを持ち、精度の高い復元に有用な高精細な特徴におけるきめ細かい情報の活用を妨げる。
本稿では,この問題に対処するためのSMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースの目標表現という2つの重要な要素を組み込んでおり、トランスフォーマーの高解像度特徴を効果的に活用することができる。
さらに, この2つの設計に基づき, 再建性能をさらに向上させるために, マルチスケール・アテンションや共同アテンションなど, 新たなモジュールもいくつか導入する。
SMPLerの既存の3次元人体形状に対する効果を実証し,定量的かつ定性的にポーズ推定方法を示した。
特に、提案アルゴリズムは、Human3.6Mデータセット上で45.2mmのMPJPEを達成し、パラメータの3分の1以下でMesh Graphormerを10%以上改善した。
コードと事前訓練されたモデルはhttps://github.com/xuxy09/SMPLer.comで入手できる。
関連論文リスト
- OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。
MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。
提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文 参考訳(メタデータ) (2024-08-01T10:16:58Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - A Modular Multi-stage Lightweight Graph Transformer Network for Human
Pose and Shape Estimation from 2D Human Pose [4.598337780022892]
提案手法では, 再現精度を犠牲にすることなく, 計算効率を優先する, ポーズに基づくヒューマンメッシュ再構築手法を提案する。
提案手法は,グラフトランスフォーマーを用いて2次元人間のポーズにおける構造的および暗黙的な関節関係を解析する2D-to-3Dリフトモジュールと,抽出したポーズ特徴とメッシュテンプレートを組み合わせたメッシュ回帰モジュールからなり,最終的なメッシュパラメータを生成する。
論文 参考訳(メタデータ) (2023-01-31T04:42:47Z) - View-Disentangled Transformer for Brain Lesion Detection [50.4918615815066]
より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディペンタングル変換器を提案する。
まず, 3次元脳スキャンにおいて, 異なる位置の長距離相関を求める。
第二に、トランスフォーマーはスライス機能のスタックを複数の2Dビューとしてモデル化し、これらの機能をビュー・バイ・ビューとして拡張する。
第三に、提案したトランスモジュールをトランスのバックボーンに展開し、脳病変を取り巻く2D領域を効果的に検出する。
論文 参考訳(メタデータ) (2022-09-20T11:58:23Z) - Learnable human mesh triangulation for 3D human pose and shape
estimation [6.699132260402631]
関節回転と形状推定の精度は, マルチビュー画像からスキン付き多対人線形モデル(SMPL)に基づくヒューマンメッシュ再構成において, 比較的注目されていない。
本稿では,関節回転・形状再構成の曖昧さとネットワーク学習の困難さを解消する2段階の手法を提案する。
提案手法は, 接合部の回転および形状推定において従来よりも有意に優れており, 接合位置推定では競争性能が向上する。
論文 参考訳(メタデータ) (2022-08-24T01:11:57Z) - Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery
with Transformers [17.22112222736234]
トランスフォーマーエンコーダアーキテクチャは近年,モノキュラー3次元メッシュ再構築における最先端の成果を達成している。
メモリのオーバーヘッドが大きく、推論速度が遅いため、そのようなモデルを実用的な用途に展開することは困難である。
本稿では,FastMETROと呼ばれる単一画像からの3次元メッシュ再構成のためのトランスフォーマエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-27T22:54:09Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。