論文の概要: Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation
- arxiv url: http://arxiv.org/abs/2303.14747v1
- Date: Sun, 26 Mar 2023 14:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:41:34.285799
- Title: Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation
- Title(参考訳): 映像に基づく3次元人物空間のグローバル・ローカルモデリングと形状推定
- Authors: Xiaolong Shen, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi
Yang
- Abstract要約: フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
- 参考スコア(独自算出の注目度): 53.04781510348416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based 3D human pose and shape estimations are evaluated by intra-frame
accuracy and inter-frame smoothness. Although these two metrics are responsible
for different ranges of temporal consistency, existing state-of-the-art methods
treat them as a unified problem and use monotonous modeling structures (e.g.,
RNN or attention-based block) to design their networks. However, using a single
kind of modeling structure is difficult to balance the learning of short-term
and long-term temporal correlations, and may bias the network to one of them,
leading to undesirable predictions like global location shift, temporal
inconsistency, and insufficient local details. To solve these problems, we
propose to structurally decouple the modeling of long-term and short-term
correlations in an end-to-end framework, Global-to-Local Transformer (GLoT).
First, a global transformer is introduced with a Masked Pose and Shape
Estimation strategy for long-term modeling. The strategy stimulates the global
transformer to learn more inter-frame correlations by randomly masking the
features of several frames. Second, a local transformer is responsible for
exploiting local details on the human mesh and interacting with the global
transformer by leveraging cross-attention. Moreover, a Hierarchical Spatial
Correlation Regressor is further introduced to refine intra-frame estimations
by decoupled global-local representation and implicit kinematic constraints.
Our GLoT surpasses previous state-of-the-art methods with the lowest model
parameters on popular benchmarks, i.e., 3DPW, MPI-INF-3DHP, and Human3.6M.
Codes are available at https://github.com/sxl142/GLoT.
- Abstract(参考訳): フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
これらの2つのメトリクスは時間的一貫性の異なる範囲に責任があるが、既存の最先端の手法はそれらを統一された問題として扱い、ネットワークの設計には単調なモデリング構造(RNNやアテンションベースブロックなど)を使用する。
しかしながら、単一種類のモデリング構造を使用することは、短期的および長期的な時間的相関の学習のバランスをとることが困難であり、ネットワークをその1つに偏らせる可能性があるため、グローバルロケーションシフト、時間的不整合、局所的詳細の不足といった望ましくない予測につながる。
これらの問題を解決するため,エンドツーエンドのGlobal-to-Local Transformer (GLoT) において,長期的および短期的相関のモデル化を構造的に分離することを提案する。
まず, 長期モデリングのためのMasked Pose and Shape Estimation戦略により, グローバルトランスフォーマーを導入する。
この戦略はグローバルトランスフォーマーを刺激し、複数のフレームの特徴をランダムにマスキングすることで、フレーム間の相関をさらに学ぶ。
第2に、ローカルトランスフォーマーは、ヒューマンメッシュのローカル詳細を活用し、クロスアテンションを利用してグローバルトランスフォーマーと対話する責任がある。
さらに,非結合なグローバル局所表現と暗黙的キネマティック制約によってフレーム内推定を洗練するために階層的空間相関回帰器を導入する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
コードはhttps://github.com/sxl142/GLoTで入手できる。
関連論文リスト
- Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Global-local Motion Transformer for Unsupervised Skeleton-based Action
Learning [23.051184131833292]
骨格運動系列の教師なし学習のための新しいトランスフォーマーモデルを提案する。
提案モデルでは, 関節の局所力学を学習し, 動き列から大域的文脈を捉える。
論文 参考訳(メタデータ) (2022-07-13T10:18:07Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。