論文の概要: ConvFormer: Parameter Reduction in Transformer Models for 3D Human Pose
Estimation by Leveraging Dynamic Multi-Headed Convolutional Attention
- arxiv url: http://arxiv.org/abs/2304.02147v1
- Date: Tue, 4 Apr 2023 22:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:07:42.545306
- Title: ConvFormer: Parameter Reduction in Transformer Models for 3D Human Pose
Estimation by Leveraging Dynamic Multi-Headed Convolutional Attention
- Title(参考訳): convformer:動的多頭部畳み込み注意を利用した3次元ポーズ推定用変圧器モデルのパラメータ低減
- Authors: Alec Diaz-Arias and Dmitriy Shin
- Abstract要約: textbftextitConvFormerは、3D人間のポーズ推定タスクのための新しい畳み込み変換器である。
我々は,Human3.6M,MPI-INF-3DHP,HumanEvaの3つのベンチマークデータセットで本手法を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, fully-transformer architectures have replaced the defacto
convolutional architecture for the 3D human pose estimation task. In this paper
we propose \textbf{\textit{ConvFormer}}, a novel convolutional transformer that
leverages a new \textbf{\textit{dynamic multi-headed convolutional
self-attention}} mechanism for monocular 3D human pose estimation. We designed
a spatial and temporal convolutional transformer to comprehensively model human
joint relations within individual frames and globally across the motion
sequence. Moreover, we introduce a novel notion of \textbf{\textit{temporal
joints profile}} for our temporal ConvFormer that fuses complete temporal
information immediately for a local neighborhood of joint features. We have
quantitatively and qualitatively validated our method on three common benchmark
datasets: Human3.6M, MPI-INF-3DHP, and HumanEva. Extensive experiments have
been conducted to identify the optimal hyper-parameter set. These experiments
demonstrated that we achieved a \textbf{significant parameter reduction
relative to prior transformer models} while attaining State-of-the-Art (SOTA)
or near SOTA on all three datasets. Additionally, we achieved SOTA for Protocol
III on H36M for both GT and CPN detection inputs. Finally, we obtained SOTA on
all three metrics for the MPI-INF-3DHP dataset and for all three subjects on
HumanEva under Protocol II.
- Abstract(参考訳): 近年,3次元ポーズ推定作業におけるデファクト畳み込み型アーキテクチャを,完全変換型アーキテクチャに置き換えている。
本稿では, モノラルな3次元ポーズ推定のための新規な畳み込み変換器である \textbf{\textit{ConvFormer}} を提案する。
我々は,空間的および時間的畳み込み変換器を設計し,個々のフレーム内の人間の関節関係を包括的にモデル化した。
さらに, 局所的な関節特徴の近傍において, 時間的情報を完全に融合させる「textbf{\textit{temporal joints profile」という新しい概念を導入する。
我々は,Human3.6M,MPI-INF-3DHP,HumanEvaの3つのベンチマークデータセットに対して,定量的に定性的に評価を行った。
最適なハイパーパラメータセットを特定するために、大規模な実験が行われた。
これらの実験により,従来の変圧器モデルと比較した場合,3つのデータセットでSOTA(State-of-the-Art)あるいはSOTA付近を達成できた。
さらに,H36MのProtocol III用SOTAをGTおよびCPN検出入力の両方で達成した。
最後に、MPI-INF-3DHPデータセットの3つの指標と、Protocol IIの下でHumanEvaに関する3つの被験者についてSOTAを得た。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。