論文の概要: X-HRNet: Towards Lightweight Human Pose Estimation with Spatially
Unidimensional Self-Attention
- arxiv url: http://arxiv.org/abs/2310.08042v1
- Date: Thu, 12 Oct 2023 05:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:51:18.582270
- Title: X-HRNet: Towards Lightweight Human Pose Estimation with Spatially
Unidimensional Self-Attention
- Title(参考訳): X-HRNet:空間的一次元自己認識による軽量人文推定に向けて
- Authors: Yixuan Zhou, Xuanhan Wang, Xing Xu, Lei Zhao, Jingkuan Song
- Abstract要約: 特に, 主ポーズ推定法は, 2次元単一ピークヒートマップを用いて人間の関節を推定する。
本稿では,空間的一次元自己認識(SUSA)という軽量で強力な代替手段を,ポイントワイズ(1×1)の畳み込みに導入する。
我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。
- 参考スコア(独自算出の注目度): 63.64944381130373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution representation is necessary for human pose estimation to
achieve high performance, and the ensuing problem is high computational
complexity. In particular, predominant pose estimation methods estimate human
joints by 2D single-peak heatmaps. Each 2D heatmap can be horizontally and
vertically projected to and reconstructed by a pair of 1D heat vectors.
Inspired by this observation, we introduce a lightweight and powerful
alternative, Spatially Unidimensional Self-Attention (SUSA), to the pointwise
(1x1) convolution that is the main computational bottleneck in the depthwise
separable 3c3 convolution. Our SUSA reduces the computational complexity of the
pointwise (1x1) convolution by 96% without sacrificing accuracy. Furthermore,
we use the SUSA as the main module to build our lightweight pose estimation
backbone X-HRNet, where `X' represents the estimated cross-shape attention
vectors. Extensive experiments on the COCO benchmark demonstrate the
superiority of our X-HRNet, and comprehensive ablation studies show the
effectiveness of the SUSA modules. The code is publicly available at
https://github.com/cool-xuan/x-hrnet.
- Abstract(参考訳): 人間のポーズ推定には高分解能な表現が必要であり、それに伴う問題は高い計算複雑性である。
特に,2次元単一ピークヒートマップによるヒト関節の姿勢推定手法が主流である。
それぞれの2次元熱マップは水平および垂直に投影され、一対の1次元熱ベクトルによって再構成される。
この観測に触発されて、深度分離可能な3c3畳み込みにおける主要な計算ボトルネックであるポイントワイド(1x1)畳み込みに対して、軽量で強力な「空間一次元自己認識」(SUSA)を導入する。
我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。
さらに、SUSAをメインモジュールとして使用し、軽量なポーズ推定バックボーンX-HRNetを構築します。
COCOベンチマークの大規模な実験は、我々のX-HRNetの優位性を示し、包括的なアブレーション研究は、SUSAモジュールの有効性を示している。
コードはhttps://github.com/cool-xuan/x-hrnetで公開されている。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic
Projection [24.964926464973026]
ボクセル法はマルチカメラを用いた多人数3Dポーズ推定において有望な結果を得た。
本稿では,3次元座標面に特徴量を再投影することにより,この問題に対処する高速なVoxelPoseを提案する。
コストのかかる3D-CNNは不要であり、VoxelPoseの速度を10倍に向上させる。
論文 参考訳(メタデータ) (2022-07-22T09:10:01Z) - Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation [35.765304656180355]
エッジ上でのリアルタイム多人数ポーズ推定のための効率的なアーキテクチャ設計について検討する。
この発見に触発されて、ポーズ推定のための効率的な単一ブランチアーキテクチャLitePoseを設計した。
本稿では,Fusion Deconv Head や Large Kernel Convs など,LitePose のキャパシティ向上のための2つの簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-03T02:08:04Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。