論文の概要: Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR
- arxiv url: http://arxiv.org/abs/2211.16951v1
- Date: Wed, 30 Nov 2022 12:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:15:31.285146
- Title: Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR
- Title(参考訳): モノクロカメラと単一LiDARによる大規模シーンの3次元多人数姿勢推定
- Authors: Peishan Cong, Yiteng Xu, Yiming Ren, Juze Zhang, Lan Xu, Jingya Wang,
Jingyi Yu, Yuexin Ma
- Abstract要約: 大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
- 参考スコア(独自算出の注目度): 41.39277657279448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation is usually ill-posed and ambiguous for monocular
camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate
depth information in long-range scenes, it can benefit both the global
localization of individuals and the 3D pose estimation by providing rich
geometry features. Motivated by this, we propose a monocular camera and single
LiDAR-based method for 3D multi-person pose estimation in large-scale scenes,
which is easy to deploy and insensitive to light. Specifically, we design an
effective fusion strategy to take advantage of multi-modal input data,
including images and point cloud, and make full use of temporal information to
guide the network to learn natural and coherent human motions. Without relying
on any 3D pose annotations, our method exploits the inherent geometry
constraints of point cloud for self-supervision and utilizes 2D keypoints on
images for weak supervision. Extensive experiments on public datasets and our
newly collected dataset demonstrate the superiority and generalization
capability of our proposed method.
- Abstract(参考訳): 深度推定は通常不適切であり、単眼カメラを用いた3次元多人数ポーズ推定では曖昧である。
LiDARは、長距離シーンにおける正確な深度情報をキャプチャできるため、個人のグローバルな位置決めと、リッチな幾何学的特徴を提供することによる3Dポーズ推定の両方の利点がある。
そこで本研究では,大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARを用いた単一手法を提案する。
具体的には,画像やポイントクラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略をデザインし,時間的情報を最大限に活用し,ネットワークを誘導し,自然かつコヒーレントな人間の動きを学習する。
任意の3次元ポーズアノテーションを使わずに,自己スーパービジョンのためのポイントクラウドの固有の幾何学的制約を活用し,画像上の2次元キーポイントを弱い監督のために利用する。
公開データセットと新たに収集したデータセットに関する大規模な実験により,提案手法の優位性と一般化能力を示す。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。