論文の概要: Pre-training a Density-Aware Pose Transformer for Robust LiDAR-based 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2412.13454v1
- Date: Wed, 18 Dec 2024 02:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:07.532955
- Title: Pre-training a Density-Aware Pose Transformer for Robust LiDAR-based 3D Human Pose Estimation
- Title(参考訳): ロバストLiDARを用いた3次元人物位置推定のための密度認識型姿勢変換器の事前学習
- Authors: Xiaoqi An, Lin Zhao, Chen Gong, Jun Li, Jian Yang,
- Abstract要約: LiDARベースの3Dヒューマンポース推定が研究の焦点となっている。
既存の手法のほとんどは、時間情報、マルチモーダル融合、あるいはSMPL最適化を使ってバイアスのある結果を修正する。
本稿では,ポイントクラウドのモデリングと拡張に関する洞察を提供する,シンプルながら強力な手法を提案する。
- 参考スコア(独自算出の注目度): 27.25933965875881
- License:
- Abstract: With the rapid development of autonomous driving, LiDAR-based 3D Human Pose Estimation (3D HPE) is becoming a research focus. However, due to the noise and sparsity of LiDAR-captured point clouds, robust human pose estimation remains challenging. Most of the existing methods use temporal information, multi-modal fusion, or SMPL optimization to correct biased results. In this work, we try to obtain sufficient information for 3D HPE only by modeling the intrinsic properties of low-quality point clouds. Hence, a simple yet powerful method is proposed, which provides insights both on modeling and augmentation of point clouds. Specifically, we first propose a concise and effective density-aware pose transformer (DAPT) to get stable keypoint representations. By using a set of joint anchors and a carefully designed exchange module, valid information is extracted from point clouds with different densities. Then 1D heatmaps are utilized to represent the precise locations of the keypoints. Secondly, a comprehensive LiDAR human synthesis and augmentation method is proposed to pre-train the model, enabling it to acquire a better human body prior. We increase the diversity of point clouds by randomly sampling human positions and orientations and by simulating occlusions through the addition of laser-level masks. Extensive experiments have been conducted on multiple datasets, including IMU-annotated LidarHuman26M, SLOPER4D, and manually annotated Waymo Open Dataset v2.0 (Waymo), HumanM3. Our method demonstrates SOTA performance in all scenarios. In particular, compared with LPFormer on Waymo, we reduce the average MPJPE by $10.0mm$. Compared with PRN on SLOPER4D, we notably reduce the average MPJPE by $20.7mm$.
- Abstract(参考訳): 自動運転の急速な発展に伴い、LiDARをベースとした3Dヒューマンポース推定(3D HPE)が研究の焦点となっている。
しかし、LiDARが捉えた点雲のノイズと空間性のため、頑健な人間のポーズ推定は依然として困難である。
既存の手法のほとんどは、時間情報、マルチモーダル融合、あるいはSMPL最適化を使ってバイアスのある結果を修正する。
本研究では,低品質点雲の固有特性をモデル化することによって,3次元HPEの十分な情報を得る。
したがって,ポイントクラウドのモデリングと拡張に関する洞察を提供する,シンプルで強力な手法が提案されている。
具体的には、まず、安定なキーポイント表現を得るために、簡潔で効果的な密度対応ポーズ変換器(DAPT)を提案する。
ジョイントアンカーと慎重に設計された交換モジュールを用いて、異なる密度の点雲から有効情報を抽出する。
次に、キーポイントの正確な位置を表すために、1Dヒートマップを使用する。
第2に、モデルを事前訓練するための総合的なLiDAR人体合成および拡張法を提案し、より優れた人体を前もって取得できるようにした。
我々は、人の位置や方向をランダムにサンプリングし、レーザーレベルのマスクを追加することで閉塞をシミュレートすることで、点雲の多様性を高める。
IMUアノテートLidarHuman26M、SLOPER4D、手動アノテートWaymo Open Dataset v2.0(Waymo)、HumanM3など、複数のデータセットで大規模な実験が行われた。
本手法は,すべてのシナリオにおいてSOTA性能を示す。
特にWaymoのLPFormerと比較して、平均的なMPJPEを10.0mm$に削減しています。
SLOPER4DのPRNと比較して、平均的なMPJPEを20.7mm$に下げる。
関連論文リスト
- CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文 参考訳(メタデータ) (2022-11-30T12:50:40Z) - LiDAR-aid Inertial Poser: Large-scale Human Motion Capture by Sparse
Inertial and LiDAR Sensors [38.60837840737258]
本研究では,大規模なシナリオにおいて,高精度な局所的なポーズとグローバルな軌跡を持つ3次元人間の動きを捉えるためのマルチセンサ融合法を提案する。
我々は,2段階のポーズ推定器を粗大な方法で設計し,そこでは点雲が粗大な体形状を提供し,IMU測定は局所的な動作を最適化する。
我々は,LiDAR-IMUマルチモーダルモキャップデータセット(LIPD)を長期シナリオで収集する。
論文 参考訳(メタデータ) (2022-05-30T20:15:11Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。