論文の概要: Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2004.00329v1
- Date: Wed, 1 Apr 2020 10:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 19:04:49.370335
- Title: Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation
- Title(参考訳): 多人数3次元ポーズ推定のための圧縮体積熱マップ
- Authors: Matteo Fabbri, Fabio Lanzi, Simone Calderara, Stefano Alletto, Rita
Cucchiara
- Abstract要約: 単眼RGB画像からボトムアップな3次元人物ポーズ推定手法を提案する。
本稿では,この表現のサイズを大幅に削減する,シンプルで効率的な圧縮手法を提案する。
提案手法は,多人・一対一の3次元ポーズ推定データセットを用いた場合と比較して,好適に機能する。
- 参考スコア(独自算出の注目度): 33.71628590745982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present a novel approach for bottom-up multi-person 3D human
pose estimation from monocular RGB images. We propose to use high resolution
volumetric heatmaps to model joint locations, devising a simple and effective
compression method to drastically reduce the size of this representation. At
the core of the proposed method lies our Volumetric Heatmap Autoencoder, a
fully-convolutional network tasked with the compression of ground-truth
heatmaps into a dense intermediate representation. A second model, the Code
Predictor, is then trained to predict these codes, which can be decompressed at
test time to re-obtain the original representation. Our experimental evaluation
shows that our method performs favorably when compared to state of the art on
both multi-person and single-person 3D human pose estimation datasets and,
thanks to our novel compression strategy, can process full-HD images at the
constant runtime of 8 fps regardless of the number of subjects in the scene.
Code and models available at https://github.com/fabbrimatteo/LoCO .
- Abstract(参考訳): 本稿では,単眼型rgb画像を用いたボトムアップ型多人数3次元ポーズ推定手法を提案する。
本稿では,高分解能な体積熱マップを用いて関節位置をモデル化し,この表現の規模を大幅に削減する簡易かつ効率的な圧縮法を提案する。
提案手法のコアとなるのは,地中熱マップを高密度中間表現に圧縮する完全畳み込みネットワークであるボリュームヒートマップオートエンコーダである。
第2のモデルであるcode predictorは、これらのコードを予測するために訓練され、テスト時にデ圧縮して元の表現を再観察することができる。
実験により,本手法は,複数人・1人の人物のポーズ推定データに比較して良好に動作することを示すとともに,新たな圧縮戦略により,シーン内の被写体数に関わらず8fpsのフルHD画像を一定実行時に処理できることがわかった。
コードとモデルはhttps://github.com/fabbrimatteo/locoで入手できる。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - CrowdRec: 3D Crowd Reconstruction from Single Color Images [17.662273473398592]
我々は,群集の特徴を活かし,群集画像に共通する1対1の手法を改善するために,群集制約付き最適化を提案する。
この最適化により、大規模な群集画像から、合理的な絶対位置の正確なボディポーズと形状を得ることができる。
論文 参考訳(メタデータ) (2023-10-10T06:03:39Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D
Representations [29.756718435405983]
暗黙的な3D表現は、表面やシーンの再構築や新しいビュー合成において、印象的な成果を上げている。
ニューラル・レージアンス・フィールド(Neural Radiance Field、NeRF)とその変種のような既存のアプローチは、通常、密度の高い入力ビューを必要とする。
暗黙的な3次元表現のための座標モデルCoCo-INRを提案する。
論文 参考訳(メタデータ) (2022-10-20T11:13:50Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - 3D Scene Compression through Entropy Penalized Neural Representation
Functions [19.277502420759653]
新しいビジュアルメディアは、元のビューの離散セットを補間することにより、視聴者が任意の視点から3dシーンを探索できるようにする。
これらのタイプのアプリケーションには、はるかに大量のストレージスペースが必要です。
3Dシーンを圧縮するための既存のアプローチは、圧縮とレンダリングの分離に基づいている。
我々は、空間座標を放射ベクトル場にマッピングする関数であるシーンの暗黙の表現を直接圧縮することでこれらのステップを統一し、任意の視点を描画するためにクエリすることができる。
本手法はシーン圧縮の最先端手法を著しく上回り,同時に高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-04-26T10:36:47Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Metric-Scale Truncation-Robust Heatmaps for 3D Human Pose Estimation [16.463390330757132]
被検体近傍の計量3次元空間で次元が定義される計量スケールトランケーション・ローバスト体積熱マップを提案する。
我々は、モノラルなRGBからその熱マップをエンドツーエンドに推定するために、完全な畳み込みネットワークを訓練する。
提案手法は単純かつ高速であるため,リアルタイムなトップダウンマルチパーソンポーズ推定システムにおいて有用なコンポーネントとなる。
論文 参考訳(メタデータ) (2020-03-05T22:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。