論文の概要: SSP-Net: Scalable Sequential Pyramid Networks for Real-Time 3D Human
Pose Regression
- arxiv url: http://arxiv.org/abs/2009.01998v1
- Date: Fri, 4 Sep 2020 03:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:09:48.732234
- Title: SSP-Net: Scalable Sequential Pyramid Networks for Real-Time 3D Human
Pose Regression
- Title(参考訳): SSP-Net:リアルタイム3D人物回帰のためのスケーラブルなシークエンシャルピラミッドネットワーク
- Authors: Diogo Luvizon and Hedi Tabia and David Picard
- Abstract要約: 高速でスケーラブルな畳み込みニューラルネットワークを,静止RGB画像からのリアルタイムな3次元ポーズ回帰のために提案する。
我々のネットワークは1つのトレーニング手順を必要とし、最高の予測を毎秒120フレームで作成することができる。
- 参考スコア(独自算出の注目度): 27.85790535227085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a highly scalable convolutional neural network,
end-to-end trainable, for real-time 3D human pose regression from still RGB
images. We call this approach the Scalable Sequential Pyramid Networks
(SSP-Net) as it is trained with refined supervision at multiple scales in a
sequential manner. Our network requires a single training procedure and is
capable of producing its best predictions at 120 frames per second (FPS), or
acceptable predictions at more than 200 FPS when cut at test time. We show that
the proposed regression approach is invariant to the size of feature maps,
allowing our method to perform multi-resolution intermediate supervisions and
reaching results comparable to the state-of-the-art with very low resolution
feature maps. We demonstrate the accuracy and the effectiveness of our method
by providing extensive experiments on two of the most important publicly
available datasets for 3D pose estimation, Human3.6M and MPI-INF-3DHP.
Additionally, we provide relevant insights about our decisions on the network
architecture and show its flexibility to meet the best precision-speed
compromise.
- Abstract(参考訳): 本稿では,RGB画像からのリアルタイムな3次元ポーズ回帰のための,エンドツーエンドのトレーニングが可能な,スケーラブルな畳み込みニューラルネットワークを提案する。
本手法は,複数スケールの精密な監視を連続的に行うことから,SSP-Net(Scalable Sequential Pyramid Networks)と呼ぶ。
我々のネットワークは、単一のトレーニング手順を必要とし、テスト時に120フレーム/秒(FPS)で最高の予測を生成するか、200FPS以上で許容できる予測を生成することができる。
提案手法は特徴マップのサイズに不変であり,マルチレゾリューション中間監督を行い,超低解像度特徴マップの最先端技術に匹敵する結果が得られることを示す。
我々は,3Dポーズ推定,Human3.6M,MPI-INF-3DHPの2つの重要な公開データセットに対して,その精度と有効性を示す。
さらに、ネットワークアーキテクチャの決定に関する適切な洞察を提供し、その柔軟性を示し、最高の精度と速度の妥協を満たします。
関連論文リスト
- GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。