論文の概要: Binarized 3D Whole-body Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2311.14323v1
- Date: Fri, 24 Nov 2023 07:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:54:02.074569
- Title: Binarized 3D Whole-body Human Mesh Recovery
- Title(参考訳): バイナリ化3次元人体メッシュリカバリ
- Authors: Zhiteng Li, Yulun Zhang, Jing Lin, Haotong Qin, Jinjin Gu, Xin Yuan,
Linghe Kong, Xiaokang Yang
- Abstract要約: 本研究では, 人体, 顔, 手の3次元パラメータを効率的に推定するために, 両立二重残差ネットワーク (BiDRN) を提案する。
BiDRNは、22.1%のパラメータと14.8%の操作しか使用せず、完全精度のHand4Wholeで同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 104.13364878565737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D whole-body human mesh recovery aims to reconstruct the 3D human body,
face, and hands from a single image. Although powerful deep learning models
have achieved accurate estimation in this task, they require enormous memory
and computational resources. Consequently, these methods can hardly be deployed
on resource-limited edge devices. In this work, we propose a Binarized Dual
Residual Network (BiDRN), a novel quantization method to estimate the 3D human
body, face, and hands parameters efficiently. Specifically, we design a basic
unit Binarized Dual Residual Block (BiDRB) composed of Local Convolution
Residual (LCR) and Block Residual (BR), which can preserve full-precision
information as much as possible. For LCR, we generalize it to four kinds of
convolutional modules so that full-precision information can be propagated even
between mismatched dimensions. We also binarize the face and hands
box-prediction network as Binaried BoxNet, which can further reduce the model
redundancy. Comprehensive quantitative and qualitative experiments demonstrate
the effectiveness of BiDRN, which has a significant improvement over
state-of-the-art binarization algorithms. Moreover, our proposed BiDRN achieves
comparable performance with full-precision method Hand4Whole while using just
22.1% parameters and 14.8% operations. We will release all the code and
pretrained models.
- Abstract(参考訳): 3Dの人体メッシュの回復は、単一の画像から3Dの人体、顔、手を再構築することを目的としている。
強力なディープラーニングモデルは、このタスクで正確な推定を達成しているが、膨大なメモリと計算リソースを必要とする。
したがって、これらの方法はリソース制限されたエッジデバイスにはほとんどデプロイできない。
本研究では、3次元人体・顔・手のパラメータを効率的に推定する新しい量子化法であるbidrn(binarized dual residual network)を提案する。
具体的には, 局所畳み込み残差 (lcr) とブロック残差 (br) からなる基本単位二元化双対残差ブロック (bidrb) を設計し, 可能な限り全精度情報を保存する。
LCRでは、4種類の畳み込み加群に一般化し、不整合次元においても全精度情報を伝播できるようにする。
また、顔と手動のボックス予測ネットワークをBinaried BoxNetとしてバイナライズし、モデル冗長性をさらに低減する。
総合的な定量的および定性的実験は、最先端のバイナライゼーションアルゴリズムよりも大幅に改善されたBiDRNの有効性を示す。
さらに本提案手法では,22.1%のパラメータと14.8%の演算を併用しながら,全精度のハンド4wholeと同等の性能を実現する。
すべてのコードと事前訓練されたモデルをリリースします。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Attention-Guided Version of 2D UNet for Automatic Brain Tumor
Segmentation [2.371982686172067]
グリオーマは脳腫瘍の中でも最も一般的で攻撃的であり、高い成績で寿命が短くなる。
深層畳み込みニューラルネットワーク(DCNN)は脳腫瘍のセグメンテーションにおいて顕著な性能を発揮している。
しかし, グリオーマの強度や外観に変化があるため, この課題は依然として困難である。
論文 参考訳(メタデータ) (2020-04-04T20:09:06Z) - HEMlets PoSh: Learning Part-Centric Heatmap Triplets for 3D Human Pose
and Shape Estimation [60.35776484235304]
本研究は, 中間状態部分熱マップトリプレット(HEMlets)を導入し, 検出された2次元関節を三次元空間に持ち上げる不確実性に対処しようとするものである。
HEMletsは3つのジョイントヒートマップを使用して、各骨格体部に対するエンドジョイントの相対的な深さ情報を表す。
Convolutional Network (ConvNet) は、入力画像からHEMletを予測し、次にボリュームのジョイント・ヒートマップレグレッションを学習する。
論文 参考訳(メタデータ) (2020-03-10T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。