論文の概要: Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning
- arxiv url: http://arxiv.org/abs/2508.21363v1
- Date: Fri, 29 Aug 2025 07:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.939103
- Title: Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning
- Title(参考訳): 階層型テンポラルプルーニングを用いた効率的な拡散に基づく3次元人物位置推定
- Authors: Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang,
- Abstract要約: 本稿では,時間計画(HTP)戦略を用いた効率的な拡散に基づく3次元人文推定フレームワークを提案する。
HTPは、フレームレベルとセマンティックレベルの両方にわたって冗長なポーズトークンを持ち、クリティカルモーションダイナミクスを保存する。
Human3.6MとMPI-INF-3DHPの実験では、HTPはトレーニングMACを38.5%減らし、推論MACを56.8%減らし、従来の拡散ベースの手法と比較して推論速度を平均81.1%改善している。
- 参考スコア(独自算出の注目度): 34.116532190562815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated strong capabilities in generating high-fidelity 3D human poses, yet their iterative nature and multi-hypothesis requirements incur substantial computational cost. In this paper, we propose an Efficient Diffusion-Based 3D Human Pose Estimation framework with a Hierarchical Temporal Pruning (HTP) strategy, which dynamically prunes redundant pose tokens across both frame and semantic levels while preserving critical motion dynamics. HTP operates in a staged, top-down manner: (1) Temporal Correlation-Enhanced Pruning (TCEP) identifies essential frames by analyzing inter-frame motion correlations through adaptive temporal graph construction; (2) Sparse-Focused Temporal MHSA (SFT MHSA) leverages the resulting frame-level sparsity to reduce attention computation, focusing on motion-relevant tokens; and (3) Mask-Guided Pose Token Pruner (MGPTP) performs fine-grained semantic pruning via clustering, retaining only the most informative pose tokens. Experiments on Human3.6M and MPI-INF-3DHP show that HTP reduces training MACs by 38.5\%, inference MACs by 56.8\%, and improves inference speed by an average of 81.1\% compared to prior diffusion-based methods, while achieving state-of-the-art performance.
- Abstract(参考訳): 拡散モデルは高忠実度3次元人間のポーズを生成するのに強力な能力を示してきたが、その反復性やマルチハイポテーシスの要求は相当な計算コストをもたらす。
本稿では,階層型テンポラルプルーニング(HTP)戦略を用いた効率的な拡散に基づく3次元人文推定フレームワークを提案する。
HTPは,(1)時間的相関強化プルーニング(TCEP)は,適応時間グラフ構造を用いてフレーム間の動き相関を解析し,必須フレームを識別する;(2)スパース焦点付きテンポラルMHSA(SFT MHSA)は,フレームレベルの空間性を利用して,注目計算を減らし,動き関連トークンに着目し,(3)マスクガイドポストケンプルーナー(MGPTP)はクラスタリングを介して微細なセマンティックプルーニングを行い,最も情報性の高いポーズトークンのみを保持する。
Human3.6M と MPI-INF-3DHP の実験では、HTP はトレーニングMAC を 38.5 %、推論MAC を 56.8 %、推論速度を 81.1 % 改善し、最先端の性能を実現している。
関連論文リスト
- StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文 参考訳(メタデータ) (2025-08-04T04:50:05Z) - Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality [15.714133129768323]
ME-rは時間空間空間双対性に基づくメモリ効率のアルゴリズムである。
最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的な変動を効率的に捉える。
我々のソリューションは3.6MBのメモリ使用率と9.46msのレイテンシでリアルタイムの推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T14:34:04Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,ビデオ中の3次元ポーズ推定のためのS-Temporal GraphFormerフレームワーク(STGFormer)を提案する。
まず,人体固有のグラフ分布をより効果的に活用するためのSTGアテンション機構を導入する。
次に、時間次元と空間次元を独立に並列に処理するための変調ホップワイド正規GCNを提案する。
最後に,Human3.6MおよびMPIINF-3DHPデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Masked Motion Predictors are Strong 3D Action Representation Learners [143.9677635274393]
人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
論文 参考訳(メタデータ) (2023-08-14T11:56:39Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。