Fugu-MT 論文翻訳(概要): Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation

論文の概要: Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation

arxiv url: http://arxiv.org/abs/2303.14747v1
Date: Sun, 26 Mar 2023 14:57:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 17:41:34.285799
Title: Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation
Title（参考訳）: 映像に基づく3次元人物空間のグローバル・ローカルモデリングと形状推定
Authors: Xiaolong Shen, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang
Abstract要約: フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
参考スコア（独自算出の注目度）: 53.04781510348416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video-based 3D human pose and shape estimations are evaluated by intra-frame accuracy and inter-frame smoothness. Although these two metrics are responsible for different ranges of temporal consistency, existing state-of-the-art methods treat them as a unified problem and use monotonous modeling structures (e.g., RNN or attention-based block) to design their networks. However, using a single kind of modeling structure is difficult to balance the learning of short-term and long-term temporal correlations, and may bias the network to one of them, leading to undesirable predictions like global location shift, temporal inconsistency, and insufficient local details. To solve these problems, we propose to structurally decouple the modeling of long-term and short-term correlations in an end-to-end framework, Global-to-Local Transformer (GLoT). First, a global transformer is introduced with a Masked Pose and Shape Estimation strategy for long-term modeling. The strategy stimulates the global transformer to learn more inter-frame correlations by randomly masking the features of several frames. Second, a local transformer is responsible for exploiting local details on the human mesh and interacting with the global transformer by leveraging cross-attention. Moreover, a Hierarchical Spatial Correlation Regressor is further introduced to refine intra-frame estimations by decoupled global-local representation and implicit kinematic constraints. Our GLoT surpasses previous state-of-the-art methods with the lowest model parameters on popular benchmarks, i.e., 3DPW, MPI-INF-3DHP, and Human3.6M. Codes are available at https://github.com/sxl142/GLoT.
Abstract（参考訳）: フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。これらの2つのメトリクスは時間的一貫性の異なる範囲に責任があるが、既存の最先端の手法はそれらを統一された問題として扱い、ネットワークの設計には単調なモデリング構造(RNNやアテンションベースブロックなど)を使用する。しかしながら、単一種類のモデリング構造を使用することは、短期的および長期的な時間的相関の学習のバランスをとることが困難であり、ネットワークをその1つに偏らせる可能性があるため、グローバルロケーションシフト、時間的不整合、局所的詳細の不足といった望ましくない予測につながる。これらの問題を解決するため,エンドツーエンドのGlobal-to-Local Transformer (GLoT) において,長期的および短期的相関のモデル化を構造的に分離することを提案する。まず, 長期モデリングのためのMasked Pose and Shape Estimation戦略により, グローバルトランスフォーマーを導入する。この戦略はグローバルトランスフォーマーを刺激し、複数のフレームの特徴をランダムにマスキングすることで、フレーム間の相関をさらに学ぶ。第2に、ローカルトランスフォーマーは、ヒューマンメッシュのローカル詳細を活用し、クロスアテンションを利用してグローバルトランスフォーマーと対話する責任がある。さらに,非結合なグローバル局所表現と暗黙的キネマティック制約によってフレーム内推定を洗練するために階層的空間相関回帰器を導入する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。コードはhttps://github.com/sxl142/GLoTで入手できる。

関連論文リスト

Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation [2.1330933342577096]
SSR-STFは,局所的な特徴をグローバルな依存関係と統合し,人間の3次元ポーズ推定を強化する2重ストリームモデルである。具体的には,SSRFormerについて紹介する。SSRFormerは,スケルトン選択的精細注意(SSRA)機構を用いて,局所的なきめ細かい依存関係を捕捉するシンプルなモジュールである。 Human3.6M と MPI-INF-3DHP のデータセットの実験では、SSR-STF がそれぞれ37.4 mm と 13.2 mm の誤差で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-12-27T14:54:12Z)
PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文参考訳（メタデータ） (2024-08-07T04:38:03Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
Double-chain Constraints for 3D Human Pose Estimation in Images and Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2023-08-10T02:41:18Z)
Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文参考訳（メタデータ） (2022-08-31T14:16:56Z)
Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。 Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2022-07-04T16:35:58Z)
CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文参考訳（メタデータ） (2022-03-24T23:40:11Z)
MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文参考訳（メタデータ） (2022-03-02T04:20:59Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。