論文の概要: LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network
- arxiv url: http://arxiv.org/abs/2306.12525v2
- Date: Sat, 2 Mar 2024 22:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:55:28.225736
- Title: LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network
- Title(参考訳): LPFormer:マルチタスクネットワークを用いたLiDAR Pose Estimation Transformer
- Authors: Dongqiangzi Ye, Yufei Xie, Weijia Chen, Zixiang Zhou, Lingting Ge,
Hassan Foroosh
- Abstract要約: 従来のヒトのポーズ推定法は2次元画像の特徴や連続した2次元アノテーションに頼っていた。
本稿では,LDARのみを入力として使用するLPFormerという,エンドツーエンドの3次元ポーズ推定のための第1のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.968650885640127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the difficulty of acquiring large-scale 3D human keypoint annotation,
previous methods for 3D human pose estimation (HPE) have often relied on 2D
image features and sequential 2D annotations. Furthermore, the training of
these networks typically assumes the prediction of a human bounding box and the
accurate alignment of 3D point clouds with 2D images, making direct application
in real-world scenarios challenging. In this paper, we present the 1st
framework for end-to-end 3D human pose estimation, named LPFormer, which uses
only LiDAR as its input along with its corresponding 3D annotations. LPFormer
consists of two stages: firstly, it identifies the human bounding box and
extracts multi-level feature representations, and secondly, it utilizes a
transformer-based network to predict human keypoints based on these features.
Our method demonstrates that 3D HPE can be seamlessly integrated into a strong
LiDAR perception network and benefit from the features extracted by the
network. Experimental results on the Waymo Open Dataset demonstrate the
state-of-the-art performance, and improvements even compared to previous
multi-modal solutions.
- Abstract(参考訳): 大規模な3次元人間のキーポイントアノテーションの取得が困難であったため,従来のHPE法は2次元画像特徴と逐次2次元アノテーションに依存してきた。
さらに、これらのネットワークのトレーニングは通常、人間のバウンディングボックスの予測と、3Dポイント雲と2D画像との正確なアライメントを前提としており、現実のシナリオで直接適用することは困難である。
本稿では,LiDARのみを入力として使用するLPFormerという,エンドツーエンドの3Dポーズ推定のための第1のフレームワークを提案する。
LPFormerは、まず、人間の境界ボックスを特定し、マルチレベルの特徴表現を抽出し、次に、トランスフォーマーベースのネットワークを使用して、これらの特徴に基づいて人間のキーポイントを予測する。
提案手法は,3次元HPEを強力なLiDAR知覚ネットワークにシームレスに統合し,ネットワークから抽出した特徴の恩恵を受けることができることを示す。
Waymo Open Datasetの実験結果は、最先端のパフォーマンスを示し、以前のマルチモーダルソリューションと比較しても改善されている。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features [64.39691149255717]
3次元形状のキーポイント検出には意味的および幾何学的認識が必要である。
我々はキーポイント候補最適化モジュールを用いて,その形状上のキーポイントの平均分布を一致させる。
結果として得られたアプローチは、KeyPointNetデータセットで数ショットのキーポイント検出のための新しい状態を実現する。
論文 参考訳(メタデータ) (2023-11-29T21:58:41Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。