論文の概要: Real-Time Multi-View 3D Human Pose Estimation using Semantic Feedback to
Smart Edge Sensors
- arxiv url: http://arxiv.org/abs/2106.14729v1
- Date: Mon, 28 Jun 2021 14:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 17:49:30.494930
- Title: Real-Time Multi-View 3D Human Pose Estimation using Semantic Feedback to
Smart Edge Sensors
- Title(参考訳): スマートエッジセンサへの意味フィードバックを用いたリアルタイムマルチビュー3次元ポーズ推定
- Authors: Simon Bultmann and Sven Behnke
- Abstract要約: 各カメラビューに対する2次元関節検出は、専用の埋め込み推論プロセッサ上で局所的に行われる。
3次元ポーズは、三角法と体モデルに基づいて、中央のバックエンドにある2次元関節から回収される。
パイプライン全体がリアルタイム操作が可能なのです。
- 参考スコア(独自算出の注目度): 28.502280038100167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel method for estimation of 3D human poses from a
multi-camera setup, employing distributed smart edge sensors coupled with a
backend through a semantic feedback loop. 2D joint detection for each camera
view is performed locally on a dedicated embedded inference processor. Only the
semantic skeleton representation is transmitted over the network and raw images
remain on the sensor board. 3D poses are recovered from 2D joints on a central
backend, based on triangulation and a body model which incorporates prior
knowledge of the human skeleton. A feedback channel from backend to individual
sensors is implemented on a semantic level. The allocentric 3D pose is
backprojected into the sensor views where it is fused with 2D joint detections.
The local semantic model on each sensor can thus be improved by incorporating
global context information. The whole pipeline is capable of real-time
operation. We evaluate our method on three public datasets, where we achieve
state-of-the-art results and show the benefits of our feedback architecture, as
well as in our own setup for multi-person experiments. Using the feedback
signal improves the 2D joint detections and in turn the estimated 3D poses.
- Abstract(参考訳): 本稿では,マルチカメラによる3次元ポーズ推定手法を提案し,セマンティックフィードバックループを通じて,バックエンドと結合した分散スマートエッジセンサを用いた。
専用埋め込み推論プロセッサにおいて、各カメラビューに対する2次元ジョイント検出をローカルに行う。
セマンティックスケルトン表現のみがネットワークを介して送信され、生画像はセンサーボード上に残る。
3dポーズは、三角測量と人体骨格の事前知識を組み込んだボディモデルに基づいて、中央バックエンドの2d関節から復元される。
バックエンドから個々のセンサへのフィードバックチャネルをセマンティックレベルで実装する。
同中心の3Dポーズは、センサービューにバックプロジェクションされ、2D関節検出と融合する。
これにより、グローバルコンテキスト情報を組み込むことで、各センサ上の局所意味モデルを改善することができる。
パイプライン全体はリアルタイム操作が可能である。
提案手法を3つの公開データセット上で評価し,最新の成果を得られた上で,フィードバックアーキテクチャのメリットと,多人数実験のための独自の設定を示す。
フィードバック信号を用いることで、2次元関節検出が改善され、推定された3次元ポーズが向上する。
関連論文リスト
- SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - 3D Semantic Scene Perception using Distributed Smart Edge Sensors [29.998917158604694]
本稿では,分散スマートエッジセンサのネットワークからなる3次元セマンティックシーン認識システムを提案する。
センサーノードは、組み込みCNN推論アクセラレータとRGB-Dおよびサーマルカメラに基づいている。
提案システムでは,複数の人物の3次元ポーズをリアルタイムで推定し,意味的アノテーションを付加したシーンビューを提供する。
論文 参考訳(メタデータ) (2022-05-03T12:46:26Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。