論文の概要: BinaryHPE: 3D Human Pose and Shape Estimation via Binarization
- arxiv url: http://arxiv.org/abs/2311.14323v2
- Date: Sat, 01 Feb 2025 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:13.042809
- Title: BinaryHPE: 3D Human Pose and Shape Estimation via Binarization
- Title(参考訳): バイナリHPE:2値化による3次元人間の姿勢と形状推定
- Authors: Zhiteng Li, Yulun Zhang, Jing Lin, Haotong Qin, Jinjin Gu, Xin Yuan, Linghe Kong, Xiaokang Yang,
- Abstract要約: 3次元人のポーズと形状推定(HPE)は、単一の画像から3次元の人体、顔、手を再構築することを目的としている。
本研究では,人体・顔・手の3次元パラメータを効率的に推定するバイナライズ手法であるBinaryHPEを提案する。
- 参考スコア(独自算出の注目度): 99.83378699846767
- License:
- Abstract: 3D human pose and shape estimation (HPE) aims to reconstruct the 3D human body, face, and hands from a single image. Although powerful deep learning models have achieved accurate estimation in this task, they require enormous memory and computational resources. Consequently, these methods can hardly be deployed on resource-limited edge devices. In this work, we propose BinaryHPE, a novel binarization method designed to estimate the 3D human body, face, and hands parameters efficiently. Specifically, we propose a novel binary backbone called Binarized Dual Residual Network (BiDRN), designed to retain as much full-precision information as possible. Furthermore, we propose the Binarized BoxNet, an efficient sub-network for predicting face and hands bounding boxes, which further reduces model redundancy. Comprehensive quantitative and qualitative experiments demonstrate the effectiveness of BinaryHPE, which has a significant improvement over state-of-the-art binarization algorithms. Moreover, our BinaryHPE achieves comparable performance with the full-precision method Hand4Whole while using only 22.1% parameters and 14.8% operations. We will release all the code and pretrained models.
- Abstract(参考訳): 3次元人のポーズと形状推定(HPE)は、単一の画像から3次元の人体、顔、手を再構築することを目的としている。
このタスクでは強力なディープラーニングモデルによる正確な推定が達成されているが、膨大なメモリと計算資源が必要である。
したがって、これらの手法はリソース制限されたエッジデバイスにはほとんど展開できない。
本研究では,人体・顔・手の3次元パラメータを効率的に推定するバイナライズ手法であるBinaryHPEを提案する。
具体的には,BiDRN(Biarized Dual Residual Network)と呼ばれる新しいバイナリバックボーンを提案する。
さらに、顔と手の境界ボックスを予測するための効率的なサブネットワークであるBinarized BoxNetを提案する。
総合的な定量的および定性的な実験は、最先端のバイナライゼーションアルゴリズムよりも大幅に改善されたバイナリHPEの有効性を示す。
さらに、BinaryHPEは、22.1%のパラメータと14.8%の操作しか使用せず、フル精度のHand4Wholeで同等のパフォーマンスを実現しています。
すべてのコードと事前訓練されたモデルをリリースします。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Attention-Guided Version of 2D UNet for Automatic Brain Tumor
Segmentation [2.371982686172067]
グリオーマは脳腫瘍の中でも最も一般的で攻撃的であり、高い成績で寿命が短くなる。
深層畳み込みニューラルネットワーク(DCNN)は脳腫瘍のセグメンテーションにおいて顕著な性能を発揮している。
しかし, グリオーマの強度や外観に変化があるため, この課題は依然として困難である。
論文 参考訳(メタデータ) (2020-04-04T20:09:06Z) - HEMlets PoSh: Learning Part-Centric Heatmap Triplets for 3D Human Pose
and Shape Estimation [60.35776484235304]
本研究は, 中間状態部分熱マップトリプレット(HEMlets)を導入し, 検出された2次元関節を三次元空間に持ち上げる不確実性に対処しようとするものである。
HEMletsは3つのジョイントヒートマップを使用して、各骨格体部に対するエンドジョイントの相対的な深さ情報を表す。
Convolutional Network (ConvNet) は、入力画像からHEMletを予測し、次にボリュームのジョイント・ヒートマップレグレッションを学習する。
論文 参考訳(メタデータ) (2020-03-10T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。