論文の概要: AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation
- arxiv url: http://arxiv.org/abs/2201.08093v1
- Date: Thu, 20 Jan 2022 09:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 14:23:21.896742
- Title: AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation
- Title(参考訳): AirPose:Aerial 3D Human Poseのための多視点核融合ネットワークと形状推定
- Authors: Nitin Saini, Elia Bonetto, Eric Price, Aamir Ahmad and Michael J.
Black
- Abstract要約: 本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
- 参考スコア(独自算出の注目度): 51.17610485589701
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this letter, we present a novel markerless 3D human motion capture (MoCap)
system for unstructured, outdoor environments that uses a team of autonomous
unmanned aerial vehicles (UAVs) with on-board RGB cameras and computation.
Existing methods are limited by calibrated cameras and off-line processing.
Thus, we present the first method (AirPose) to estimate human pose and shape
using images captured by multiple extrinsically uncalibrated flying cameras.
AirPose itself calibrates the cameras relative to the person instead of relying
on any pre-calibration. It uses distributed neural networks running on each UAV
that communicate viewpoint-independent information with each other about the
person (i.e., their 3D shape and articulated pose). The person's shape and pose
are parameterized using the SMPL-X body model, resulting in a compact
representation, that minimizes communication between the UAVs. The network is
trained using synthetic images of realistic virtual environments, and
fine-tuned on a small set of real images. We also introduce an
optimization-based post-processing method (AirPose$^{+}$) for offline
applications that require higher MoCap quality. We make our method's code and
data available for research at
https://github.com/robot-perception-group/AirPose. A video describing the
approach and results is available at https://youtu.be/xLYe1TNHsfs.
- Abstract(参考訳): 本稿では,自律型無人航空機(uavs)と車載rgbカメラと計算を併用した非構造化屋外環境のための,新しいマーカーレス3dモーションキャプチャ(mocap)システムを提案する。
既存の方法は、キャリブレーションカメラとオフライン処理によって制限されている。
そこで本研究では,複数の外接型飛行カメラで撮影された画像を用いて人間のポーズと形状を推定する最初の手法(AirPose)を提案する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
それぞれのUAV上で動作する分散ニューラルネットワークを使用して、人の視点に依存しない情報(すなわち、その3D形状と明瞭なポーズ)を相互に伝達する。
人の形状とポーズはSMPL-Xボディモデルを用いてパラメータ化され、コンパクトな表現となり、UAV間の通信を最小化する。
ネットワークは、リアルな仮想環境の合成画像を使って訓練され、小さな実画像セットで微調整される。
また,mocap品質の高いオフラインアプリケーションに対して,最適化に基づくポストプロセッシング手法(airpose$^{+}$)を導入する。
我々はメソッドのコードとデータをhttps://github.com/robot-perception-group/AirPose.comで研究する。
アプローチと結果を説明するビデオは、https://youtu.be/xlye1tnhsfsで見ることができる。
関連論文リスト
- Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - SmartMocap: Joint Estimation of Human and Camera Motion using
Uncalibrated RGB Cameras [49.110201064166915]
複数のRGBカメラからのマーカーレス人間のモーションキャプチャ(モキャップ)は、広く研究されている問題である。
既存の方法は、モキャップシステムの基準フレームとして機能するスタティックカメラに対して、キャリブレーションされたカメラを必要とするか、あるいはそれらをキャリブレーションする必要がある。
複数の静止・移動可能なRGBカメラを用いたモキャップ方式を提案する。
論文 参考訳(メタデータ) (2022-09-28T08:21:04Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - Newton-PnP: Real-time Visual Navigation for Autonomous Toy-Drones [15.075691719756877]
パースペクティブ・n・ポイント問題は、校正された単眼カメラと既知の3Dモデルとの相対的なポーズを推定することを目的としている。
リアルタイムに弱いIoT上で動作するアルゴリズムを提案するが、実行時間と正確性の両方を保証できる。
私たちの主な動機は、人気のDJIのTello Droneを、外部の人間/ラップトップ/センサーを使わずに、屋内環境をナビゲートする自律ドローンに変えることです。
論文 参考訳(メタデータ) (2022-03-05T09:00:50Z) - Human POSEitioning System (HPS): 3D Human Pose Estimation and
Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。
最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。
hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文 参考訳(メタデータ) (2021-03-31T17:58:31Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。