Fugu-MT 論文翻訳(概要): Real-time, low-cost multi-person 3D pose estimation

論文の概要: Real-time, low-cost multi-person 3D pose estimation

arxiv url: http://arxiv.org/abs/2110.11414v1
Date: Mon, 11 Oct 2021 12:42:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-01 09:26:41.572586
Title: Real-time, low-cost multi-person 3D pose estimation
Title（参考訳）: リアルタイム・低コスト多人数3次元ポーズ推定
Authors: Alice Ruget, Max Tyler, Germ\'an Mora Mart\'in, Stirling Scholes, Feng Zhu, Istvan Gyongy, Brent Hearn, Steve McLaughlin, Abderrahim Halimi, Jonathan Leach
Abstract要約: 伝統的に3次元ポーズ推定には、深度画像を生成するために複数の連結強度カメラや高解像度の飛行時間カメラのような高度な装置が必要である。本稿では, 高精度なポーズ推定を実現し, より簡単な作業のために設計された飛行時間センサの限界を克服できることを実証する。この作業は、それまで高度なハードウェア要件と飛行時間技術によって制限されていたシナリオにおける有望な現実的なアプリケーションを開く。
参考スコア（独自算出の注目度）: 8.093696116585717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The process of tracking human anatomy in computer vision is referred to pose estimation, and it is used in fields ranging from gaming to surveillance. Three-dimensional pose estimation traditionally requires advanced equipment, such as multiple linked intensity cameras or high-resolution time-of-flight cameras to produce depth images. However, there are applications, e.g.~consumer electronics, where significant constraints are placed on the size, power consumption, weight and cost of the usable technology. Here, we demonstrate that computational imaging methods can achieve accurate pose estimation and overcome the apparent limitations of time-of-flight sensors designed for much simpler tasks. The sensor we use is already widely integrated in consumer-grade mobile devices, and despite its low spatial resolution, only 4$\times$4 pixels, our proposed Pixels2Pose system transforms its data into accurate depth maps and 3D pose data of multiple people up to a distance of 3 m from the sensor. We are able to generate depth maps at a resolution of 32$\times$32 and 3D localization of a body parts with an error of only $\approx$10 cm at a frame rate of 7 fps. This work opens up promising real-life applications in scenarios that were previously restricted by the advanced hardware requirements and cost of time-of-flight technology.
Abstract（参考訳）: コンピュータビジョンにおける人間の解剖を追跡するプロセスはポーズ推定と呼ばれ、ゲームから監視まで幅広い分野で使用される。従来の3次元ポーズ推定では、深度画像を生成するために複数の連結強度カメラや高分解能の飛行時間カメラなどの高度な機器が必要となる。しかし、例えば、-consumer electronicsのような応用があり、使用する技術のサイズ、消費電力、重量、コストに重大な制約が課されている。本稿では,高精度なポーズ推定を実現し,より簡単な作業のために設計された飛行時間センサの明らかな限界を克服できることを示す。我々が使っているセンサーは、すでに消費者向けのモバイルデバイスに広く統合されており、空間解像度は4ドル(約4万4000円)と低いが、提案したPixels2Poseシステムは、データを正確な深度マップに変換し、複数の人のデータをセンサーから3mの距離まで3Dポーズする。我々は32$\times$32の解像度で深度マップを生成でき、フレームレート7 fpsでわずか$\approx$10 cmの誤差で身体部分の3次元局所化を行うことができる。この作業は、それまで高度なハードウェア要件と飛行時間技術によって制限されていたシナリオにおける有望な現実的なアプリケーションを開く。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
Ultra Inertial Poser: Scalable Motion Capture and Tracking from Sparse Inertial Sensors and Ultra-Wideband Ranging [23.010268017856824]
我々は,新しい3次元フルボディポーズ推定法であるUltra Inertial Poserを提案する。本手法は,センサ間距離による慣性追跡においてドリフトとジッタを制約する。提案手法のPIPおよびTIP上での最先端性能について実験を行った。
論文参考訳（メタデータ） (2024-04-30T13:14:11Z)
EventEgo3D: 3D Human Motion Capture from Egocentric Event Streams [59.77837807004765]
本稿では,魚眼レンズを用いた一眼一眼レフカメラによる3次元モーションキャプチャーという新たな課題を紹介する。イベントストリームは、時間分解能が高く、高速な人間の動作下での3次元モーションキャプチャーと、急速に変化する照明のための信頼性の高い手がかりを提供する。我々のEE3Dは、リアルタイム3Dポーズ更新レートを140Hzでサポートしながら、既存のソリューションと比較して堅牢性と優れた3D精度を示す。
論文参考訳（メタデータ） (2024-04-12T17:59:47Z)
Prototipo de un Contador Bidireccional Automático de Personas basado en sensores de visión 3D [39.58317527488534]
RGB-Dセンサーとしても知られる3Dセンサーは、深度画像を利用して、各ピクセルがカメラから物体までの距離を測定する。プロトタイプはRGB-Dセンサーを使って、スタジアムや空港などの空間におけるセキュリティと監視を支援する。このシステムには、RealSense D415奥行きカメラと、人物をカウントするオブジェクト検出アルゴリズムを実行するミニコンピュータと、身元確認のための2Dカメラが含まれている。
論文参考訳（メタデータ） (2024-03-18T23:18:40Z)
Improving Real-Time Omnidirectional 3D Multi-Person Human Pose Estimation with People Matching and Unsupervised 2D-3D Lifting [3.231937990387248]
現在の人間のポーズ推定システムは、一人の人の正確な3次元世界的推定を取得することに焦点を当てている。本稿では,リアルタイムに動作可能な最初の3次元人体ポーズ推定システムについて述べる。
論文参考訳（メタデータ） (2024-03-14T14:30:31Z)
Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文参考訳（メタデータ） (2023-08-21T10:38:32Z)
Economical Quaternion Extraction from a Human Skeletal Pose Estimate using 2-D Cameras [0.0]
提案アルゴリズムは,5ミリ秒以下の遅延時間で人間の物体の画像をキャプチャする2次元フレームから四元数を抽出する。このアルゴリズムは、資金の障壁を回避し、制御システムを設計するロボット研究者のアクセシビリティを向上させる。
論文参考訳（メタデータ） (2023-03-15T14:41:17Z)
E$^3$Pose: Energy-Efficient Edge-assisted Multi-camera System for Multi-human 3D Pose Estimation [5.50767672740241]
実世界と仮想世界とのシームレスな接続を確立する上で,マルチヒューマン3次元ポーズ推定が重要な役割を担っている。実時間マルチヒューマン3Dポーズ推定のためのエネルギー効率の良いエッジアシスト型マルチカメラシステム E$3$Pose を提案する。その結果,3次元ポーズ推定精度を最先端の手法に匹敵する精度を維持しつつ,省エネルギー化(最大31.21%)が達成できることが示唆された。
論文参考訳（メタデータ） (2023-01-21T21:53:33Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Human POSEitioning System (HPS): 3D Human Pose Estimation and Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。 hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文参考訳（メタデータ） (2021-03-31T17:58:31Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。