論文の概要: RT-Pose: A 4D Radar Tensor-based 3D Human Pose Estimation and Localization Benchmark
- arxiv url: http://arxiv.org/abs/2407.13930v1
- Date: Thu, 18 Jul 2024 22:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:23:11.946422
- Title: RT-Pose: A 4D Radar Tensor-based 3D Human Pose Estimation and Localization Benchmark
- Title(参考訳): RT-Pose: 4次元レーダーテンソルを用いた3次元人物位置推定と位置推定ベンチマーク
- Authors: Yuan-Hao Ho, Jen-Hao Cheng, Sheng Yao Kuan, Zhongyu Jiang, Wenhao Chai, Hsiang-Wei Huang, Chih-Lung Lin, Jenq-Neng Hwang,
- Abstract要約: 本稿では,Radarベースのヒューマンポーズ(RT-Pose)データセットとオープンソースのベンチマークフレームワークを提案する。
RT-Poseデータセットは、4Dレーダテンソル、LiDARポイントクラウド、RGBイメージで構成されており、6つの複雑さレベルアクションを持つ240のシーケンスにわたる合計72kフレームに対して収集される。
RGB画像とLiDAR点雲を用いて3次元人間の骨格を正確にラベル付けするアノテーションプロセスを開発する。
さらに,3次元空間における4次元レーダーテンソルの高分解能表現を抽出し,人間のキーポイント推定を支援する最初の単一ステージアーキテクチャであるHRRadarPoseを提案する。
- 参考スコア(独自算出の注目度): 20.186044032530557
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional methods for human localization and pose estimation (HPE), which mainly rely on RGB images as an input modality, confront substantial limitations in real-world applications due to privacy concerns. In contrast, radar-based HPE methods emerge as a promising alternative, characterized by distinctive attributes such as through-wall recognition and privacy-preserving, rendering the method more conducive to practical deployments. This paper presents a Radar Tensor-based human pose (RT-Pose) dataset and an open-source benchmarking framework. The RT-Pose dataset comprises 4D radar tensors, LiDAR point clouds, and RGB images, and is collected for a total of 72k frames across 240 sequences with six different complexity-level actions. The 4D radar tensor provides raw spatio-temporal information, differentiating it from other radar point cloud-based datasets. We develop an annotation process using RGB images and LiDAR point clouds to accurately label 3D human skeletons. In addition, we propose HRRadarPose, the first single-stage architecture that extracts the high-resolution representation of 4D radar tensors in 3D space to aid human keypoint estimation. HRRadarPose outperforms previous radar-based HPE work on the RT-Pose benchmark. The overall HRRadarPose performance on the RT-Pose dataset, as reflected in a mean per joint position error (MPJPE) of 9.91cm, indicates the persistent challenges in achieving accurate HPE in complex real-world scenarios. RT-Pose is available at https://huggingface.co/datasets/uwipl/RT-Pose.
- Abstract(参考訳): 人間の位置決めとポーズ推定(HPE)の従来の手法は、主にRGB画像を入力モダリティとして依存しており、プライバシー上の懸念から現実のアプリケーションにおいてかなりの制限に直面している。
対照的に、レーダーベースのHPEメソッドは、スルーウォール認識やプライバシ保存といった特徴的な特性によって特徴付けられる、有望な代替手段として出現する。
本稿では,Radar Tensorベースのヒューマンポーズ(RT-Pose)データセットとオープンソースのベンチマークフレームワークを提案する。
RT-Poseデータセットは、4Dレーダテンソル、LiDARポイントクラウド、RGBイメージで構成されており、6つの複雑さレベルアクションを持つ240のシーケンスにわたる合計72kフレームに対して収集される。
4Dレーダテンソルは生の時空間情報を提供し、他のレーダポイントクラウドベースのデータセットと区別する。
RGB画像とLiDAR点雲を用いて3次元人間の骨格を正確にラベル付けするアノテーションプロセスを開発する。
さらに,3次元空間における4次元レーダーテンソルの高分解能表現を抽出し,人間のキーポイント推定を支援する最初の単一ステージアーキテクチャであるHRRadarPoseを提案する。
HRRadarPoseは、RT-Poseベンチマークで以前のレーダーベースのHPEよりも優れている。
RT-PoseデータセットにおけるHRRadarPoseの全体的なパフォーマンスは、9.91cmの関節位置誤差(MPJPE)の平均に反映されているように、複雑な実世界のシナリオにおいて正確なHPEを達成する上での永続的な課題を示している。
RT-Poseはhttps://huggingface.co/datasets/uwipl/RT-Poseで入手できる。
関連論文リスト
- GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - GET-UP: GEomeTric-aware Depth Estimation with Radar Points UPsampling [7.90238039959534]
既存のアルゴリズムは3Dポイントを画像面に投影してレーダデータを処理し、画素レベルの特徴抽出を行う。
レーダデータから2次元情報と3次元情報を交換・集約するために,注目度の高いグラフニューラルネットワーク(GNN)を利用するGET-UPを提案する。
提案したGET-UPをnuScenesデータセット上でベンチマークし,従来最高のパフォーマンスモデルよりも15.3%,14.7%改善した。
論文 参考訳(メタデータ) (2024-09-02T14:15:09Z) - RadarPillars: Efficient Object Detection from 4D Radar Point Clouds [42.9356088038035]
本稿では,柱型物体検出ネットワークRadarPillarsを提案する。
放射速度データを分解することにより、RadarPillarsは、View-of-Delftデータセットの最先端検出結果を大幅に上回る。
これはパラメータ数を大幅に削減し、既存のメソッドを効率面で上回り、エッジデバイス上でのリアルタイムパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-09T12:13:38Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。
また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。
我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.776076554141687]
3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:48:17Z) - SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with
4D Imaging Radar [12.842457981088378]
本稿では,単一4次元イメージングレーダを用いた新しい3次元物体検出手法である空間多重表現融合(SMURF)を提案する。
SMURFは、狭角分解能とレーダ信号のマルチパス伝搬による測定精度の低下を緩和する。
The experimental evaluations on View-of-Delft (VoD) and TJ4DRadSet datasets showed the effective and generalization ability of SMURF。
論文 参考訳(メタデータ) (2023-07-20T11:33:46Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - K-Radar: 4D Radar Object Detection for Autonomous Driving in Various
Weather Conditions [9.705678194028895]
KAIST-Radarは、新しい大規模オブジェクト検出データセットとベンチマークである。
4次元レーダーテンソル(4DRT)データの35Kフレームを含み、ドップラー、レンジ、方位、標高の寸法に沿って電力の測定を行う。
我々は、慎重に校正された高分解能ライダー、サラウンドステレオカメラ、RTK-GPSから補助的な測定を行う。
論文 参考訳(メタデータ) (2022-06-16T13:39:21Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。