論文の概要: BinaryHPE: 3D Human Pose and Shape Estimation via Binarization
- arxiv url: http://arxiv.org/abs/2311.14323v2
- Date: Sat, 01 Feb 2025 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 15:57:52.941389
- Title: BinaryHPE: 3D Human Pose and Shape Estimation via Binarization
- Title(参考訳): バイナリHPE:2値化による3次元人間の姿勢と形状推定
- Authors: Zhiteng Li, Yulun Zhang, Jing Lin, Haotong Qin, Jinjin Gu, Xin Yuan, Linghe Kong, Xiaokang Yang,
- Abstract要約: 3次元人のポーズと形状推定(HPE)は、単一の画像から3次元の人体、顔、手を再構築することを目的としている。
本研究では,人体・顔・手の3次元パラメータを効率的に推定するバイナライズ手法であるBinaryHPEを提案する。
- 参考スコア(独自算出の注目度): 99.83378699846767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose and shape estimation (HPE) aims to reconstruct the 3D human body, face, and hands from a single image. Although powerful deep learning models have achieved accurate estimation in this task, they require enormous memory and computational resources. Consequently, these methods can hardly be deployed on resource-limited edge devices. In this work, we propose BinaryHPE, a novel binarization method designed to estimate the 3D human body, face, and hands parameters efficiently. Specifically, we propose a novel binary backbone called Binarized Dual Residual Network (BiDRN), designed to retain as much full-precision information as possible. Furthermore, we propose the Binarized BoxNet, an efficient sub-network for predicting face and hands bounding boxes, which further reduces model redundancy. Comprehensive quantitative and qualitative experiments demonstrate the effectiveness of BinaryHPE, which has a significant improvement over state-of-the-art binarization algorithms. Moreover, our BinaryHPE achieves comparable performance with the full-precision method Hand4Whole while using only 22.1% parameters and 14.8% operations. We will release all the code and pretrained models.
- Abstract(参考訳): 3次元人のポーズと形状推定(HPE)は、単一の画像から3次元の人体、顔、手を再構築することを目的としている。
このタスクでは強力なディープラーニングモデルによる正確な推定が達成されているが、膨大なメモリと計算資源が必要である。
したがって、これらの手法はリソース制限されたエッジデバイスにはほとんど展開できない。
本研究では,人体・顔・手の3次元パラメータを効率的に推定するバイナライズ手法であるBinaryHPEを提案する。
具体的には,BiDRN(Biarized Dual Residual Network)と呼ばれる新しいバイナリバックボーンを提案する。
さらに、顔と手の境界ボックスを予測するための効率的なサブネットワークであるBinarized BoxNetを提案する。
総合的な定量的および定性的な実験は、最先端のバイナライゼーションアルゴリズムよりも大幅に改善されたバイナリHPEの有効性を示す。
さらに、BinaryHPEは、22.1%のパラメータと14.8%の操作しか使用せず、フル精度のHand4Wholeで同等のパフォーマンスを実現しています。
すべてのコードと事前訓練されたモデルをリリースします。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D
Medical Image Segmentation [36.367368163120794]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Med-DANet: Dynamic Architecture Network for Efficient Medical Volumetric
Segmentation [13.158995287578316]
我々は,Med-DANetという動的アーキテクチャネットワークを提案し,効率的な精度と効率のトレードオフを実現する。
入力された3次元MRIボリュームのスライス毎に,提案手法は決定ネットワークによってスライス固有の決定を学習する。
提案手法は, 従来の3次元MRI脳腫瘍セグメント化法と比較して, 同等あるいは良好な結果が得られる。
論文 参考訳(メタデータ) (2022-06-14T03:25:58Z) - A Neural Anthropometer Learning from Body Dimensions Computed on Human
3D Meshes [0.0]
本稿では,3次元メッシュの左右腕長,肩幅,切削高さ(クロッチ高さ)を,医療・バーチャル・トライオン・距離調整への応用に焦点をあてて算出する手法を提案する。
一方、最近発表された手法を用いて計算された4つの追加の体次元を用いて、8つの体次元の集合を組み立て、これら次元を推定できる畳み込みニューラルネットワークであるニューラル・アントロポメータの監視信号として使用する。
論文 参考訳(メタデータ) (2021-10-06T12:56:05Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Attention-Guided Version of 2D UNet for Automatic Brain Tumor
Segmentation [2.371982686172067]
グリオーマは脳腫瘍の中でも最も一般的で攻撃的であり、高い成績で寿命が短くなる。
深層畳み込みニューラルネットワーク(DCNN)は脳腫瘍のセグメンテーションにおいて顕著な性能を発揮している。
しかし, グリオーマの強度や外観に変化があるため, この課題は依然として困難である。
論文 参考訳(メタデータ) (2020-04-04T20:09:06Z) - HEMlets PoSh: Learning Part-Centric Heatmap Triplets for 3D Human Pose
and Shape Estimation [60.35776484235304]
本研究は, 中間状態部分熱マップトリプレット(HEMlets)を導入し, 検出された2次元関節を三次元空間に持ち上げる不確実性に対処しようとするものである。
HEMletsは3つのジョイントヒートマップを使用して、各骨格体部に対するエンドジョイントの相対的な深さ情報を表す。
Convolutional Network (ConvNet) は、入力画像からHEMletを予測し、次にボリュームのジョイント・ヒートマップレグレッションを学習する。
論文 参考訳(メタデータ) (2020-03-10T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。