論文の概要: LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network
- arxiv url: http://arxiv.org/abs/2306.12525v1
- Date: Wed, 21 Jun 2023 19:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:22:50.594735
- Title: LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network
- Title(参考訳): LPFormer:マルチタスクネットワークを用いたLiDAR Pose Estimation Transformer
- Authors: Dongqiangzi Ye, Yufei Xie, Weijia Chen, Zixiang Zhou, Hassan Foroosh
- Abstract要約: 2023年のオープンデータセット Pose Estimation チャレンジの1位となるソリューションを提示する。
提案手法はLPFormerと呼ばれ,LiDARのみを入力として,対応する3Dアノテーションとともに使用する。
- 参考スコア(独自算出の注目度): 14.083455736784583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we present the 1st place solution for the 2023
Waymo Open Dataset Pose Estimation challenge. Due to the difficulty of
acquiring large-scale 3D human keypoint annotation, previous methods have
commonly relied on 2D image features and 2D sequential annotations for 3D human
pose estimation. In contrast, our proposed method, named LPFormer, uses only
LiDAR as its input along with its corresponding 3D annotations. LPFormer
consists of two stages: the first stage detects the human bounding box and
extracts multi-level feature representations, while the second stage employs a
transformer-based network to regress the human keypoints using these features.
Experimental results on the Waymo Open Dataset demonstrate the top performance,
and improvements even compared to previous multi-modal solutions.
- Abstract(参考訳): 本稿では,2023年のwaymo open dataset pose estimation challengeにおいて,第1位となるソリューションを提案する。
大規模な3次元人間のキーポイントアノテーションの取得が困難であることから,従来の手法では2次元画像特徴と2次元連続アノテーションに頼っていた。
これとは対照的に,提案手法はLPFormerと呼ばれ,対応する3DアノテーションとともにLiDARのみを入力として使用する。
LPFormerは2つの段階から構成されており、第1段階は人間の拘束ボックスを検出し、マルチレベルの特徴表現を抽出し、第2段階はトランスフォーマーベースのネットワークを使用して、これらの特徴を用いて人間のキーポイントを回帰する。
Waymo Open Datasetの実験結果は、これまでのマルチモーダルソリューションと比較して、最高のパフォーマンスと改善を示している。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features [64.39691149255717]
3次元形状のキーポイント検出には意味的および幾何学的認識が必要である。
我々はキーポイント候補最適化モジュールを用いて,その形状上のキーポイントの平均分布を一致させる。
結果として得られたアプローチは、KeyPointNetデータセットで数ショットのキーポイント検出のための新しい状態を実現する。
論文 参考訳(メタデータ) (2023-11-29T21:58:41Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。