論文の概要: NanoHTNet: Nano Human Topology Network for Efficient 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2501.15763v1
- Date: Mon, 27 Jan 2025 04:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:21.396081
- Title: NanoHTNet: Nano Human Topology Network for Efficient 3D Human Pose Estimation
- Title(参考訳): NanoHTNet: 効率的な3次元人文推定のためのナノヒューマントポロジネットワーク
- Authors: Jialun Cai, Mengyuan Liu, Hong Liu, Wenhao Li, Shuheng Zhou,
- Abstract要約: 3次元人間のポーズ推定(HPE)は、リソース制約されたエッジデバイスによって制限される。
そこで我々は,NanoHTNet(Nano Human Topology Network)を提案する。
また、プロキシタスクにおける多様な視点から2Dのポーズを調整するためにPoseCLRを提案する。
- 参考スコア(独自算出の注目度): 24.059039655555807
- License:
- Abstract: The widespread application of 3D human pose estimation (HPE) is limited by resource-constrained edge devices, requiring more efficient models. A key approach to enhancing efficiency involves designing networks based on the structural characteristics of input data. However, effectively utilizing the structural priors in human skeletal inputs remains challenging. To address this, we leverage both explicit and implicit spatio-temporal priors of the human body through innovative model design and a pre-training proxy task. First, we propose a Nano Human Topology Network (NanoHTNet), a tiny 3D HPE network with stacked Hierarchical Mixers to capture explicit features. Specifically, the spatial Hierarchical Mixer efficiently learns the human physical topology across multiple semantic levels, while the temporal Hierarchical Mixer with discrete cosine transform and low-pass filtering captures local instantaneous movements and global action coherence. Moreover, Efficient Temporal-Spatial Tokenization (ETST) is introduced to enhance spatio-temporal interaction and reduce computational complexity significantly. Second, PoseCLR is proposed as a general pre-training method based on contrastive learning for 3D HPE, aimed at extracting implicit representations of human topology. By aligning 2D poses from diverse viewpoints in the proxy task, PoseCLR aids 3D HPE encoders like NanoHTNet in more effectively capturing the high-dimensional features of the human body, leading to further performance improvements. Extensive experiments verify that NanoHTNet with PoseCLR outperforms other state-of-the-art methods in efficiency, making it ideal for deployment on edge devices like the Jetson Nano. Code and models are available at https://github.com/vefalun/NanoHTNet.
- Abstract(参考訳): 3次元ポーズ推定(HPE)の幅広い応用は、リソース制約されたエッジデバイスによって制限されており、より効率的なモデルを必要とする。
効率性を高めるための鍵となるアプローチは、入力データの構造特性に基づいてネットワークを設計することである。
しかし、人間の骨格入力における構造的先行を効果的に活用することは依然として困難である。
これを解決するために、革新的モデル設計と事前学習プロキシタスクにより、人体の明示的および暗黙的な時空間的先行を両立させる。
まず,階層型ミキサーを積み重ねた小さな3次元HPEネットワークであるNanoHTNetを提案する。
具体的には、空間的階層的ミキサーは、複数の意味レベルにわたる人間の物理的トポロジを効率的に学習し、時間的階層的ミキサーは離散コサイン変換と低パスフィルタリングにより局所的な瞬間運動とグローバルな行動コヒーレンスをキャプチャする。
さらに,時空間トークン化(ETST)を導入し,時空間相互作用の促進と計算複雑性の低減を図る。
第2に、PoseCLRは、人間のトポロジの暗黙の表現を抽出することを目的とした、3次元HPEのコントラスト学習に基づく一般的な事前学習手法として提案されている。
PoseCLRは、プロキシタスクのさまざまな視点から2Dのポーズを調整することで、NanoHTNetのような3D HPEエンコーダを支援し、人間の身体の高次元の特徴をより効果的に捉え、さらなるパフォーマンス向上をもたらす。
広範な実験により、PoseCLRを使用したNanoHTNetは、他の最先端のメソッドよりも効率が良く、Jetson Nanoのようなエッジデバイスへのデプロイに最適であることが確認された。
コードとモデルはhttps://github.com/vefalun/NanoHTNet.comで入手できる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - HTNet: Human Topology Aware Network for 3D Human Pose Estimation [12.120648336697592]
人間の3次元ポーズ推定誤差は、人体トポロジーに沿って伝播し、手足の端関節に蓄積する。
本研究では,部分レベルでの終端継手に対する位相的制約を構築するための参照として,親ノードを利用する内部制約モジュールを設計する。
本稿では,HTNet(Human Topology aware Network)を提案する。
論文 参考訳(メタデータ) (2023-02-20T06:31:29Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - DMS-GCN: Dynamic Mutiscale Spatiotemporal Graph Convolutional Networks
for Human Motion Prediction [8.142947808507365]
動作予測のためのフィードフォワードディープニューラルネットワークを提案する。
モデル全体がすべてのアクションに適合し、エンコーダ・デコーダのフレームワークに従う。
提案手法は,Human3.6MとCMU Mocapのデータセット上でSOTA法より優れている。
論文 参考訳(メタデータ) (2021-12-20T07:07:03Z) - Geometry-Guided Progressive NeRF for Generalizable and Efficient Neural
Human Rendering [139.159534903657]
我々は、高忠実度自由視点人体詳細のための一般化可能で効率的なニューラルレーダランス・フィールド(NeRF)パイプラインを開発した。
自己閉塞性を改善するため,幾何誘導型多視点機能統合手法を考案した。
高いレンダリング効率を達成するため,幾何誘導型プログレッシブレンダリングパイプラインを導入する。
論文 参考訳(メタデータ) (2021-12-08T14:42:10Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - EvoPose2D: Pushing the Boundaries of 2D Human Pose Estimation using
Accelerated Neuroevolution with Weight Transfer [82.28607779710066]
生物進化にインスパイアされたニューラル・アーキテクチャー・サーチの一形態であるニューラル・エボリューションの2次元ヒューマン・ポーズ・ネットワークの設計への応用について検討する。
本手法は,最先端の手設計ネットワークよりも効率的かつ高精度なネットワーク設計を実現する。
論文 参考訳(メタデータ) (2020-11-17T05:56:16Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。