論文の概要: VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data
- arxiv url: http://arxiv.org/abs/2312.08871v1
- Date: Mon, 11 Dec 2023 23:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:38:49.137715
- Title: VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data
- Title(参考訳): VoxelKP:LiDARデータにおける人間のキーポイント推定のためのVoxelベースのネットワークアーキテクチャ
- Authors: Jian Shi, Peter Wonka
- Abstract要約: textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
- 参考スコア(独自算出の注目度): 53.638818890966036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textit{VoxelKP}, a novel fully sparse network architecture
tailored for human keypoint estimation in LiDAR data. The key challenge is that
objects are distributed sparsely in 3D space, while human keypoint detection
requires detailed local information wherever humans are present. We propose
four novel ideas in this paper. First, we propose sparse selective kernels to
capture multi-scale context. Second, we introduce sparse box-attention to focus
on learning spatial correlations between keypoints within each human instance.
Third, we incorporate a spatial encoding to leverage absolute 3D coordinates
when projecting 3D voxels to a 2D grid encoding a bird's eye view. Finally, we
propose hybrid feature learning to combine the processing of per-voxel features
with sparse convolution. We evaluate our method on the Waymo dataset and
achieve an improvement of $27\%$ on the MPJPE metric compared to the
state-of-the-art, \textit{HUM3DIL}, trained on the same data, and $12\%$
against the state-of-the-art, \textit{GC-KPL}, pretrained on a $25\times$
larger dataset. To the best of our knowledge, \textit{VoxelKP} is the first
single-staged, fully sparse network that is specifically designed for
addressing the challenging task of 3D keypoint estimation from LiDAR data,
achieving state-of-the-art performances. Our code is available at
\url{https://github.com/shijianjian/VoxelKP}.
- Abstract(参考訳): 本稿では,lidarデータにおける人間のキーポイント推定に適した,完全スパースネットワークアーキテクチャである \textit{voxelkp} を提案する。
鍵となる課題は、オブジェクトがわずかに3D空間に分散されているのに対して、人間のキーポイント検出には、人間がいる場所の詳細なローカル情報が必要であることだ。
本稿では4つの新しいアイデアを提案する。
まず、マルチスケールコンテキストをキャプチャするスパース選択カーネルを提案する。
次に,人間の各インスタンスにおけるキーポイント間の空間相関を学習するために,スパースボックスアテンションを導入する。
第3に,3次元ボクセルを鳥の目視をエンコードする2次元グリッドに投影する際に,絶対3次元座標を利用するように空間符号化を導入する。
最後に,voxel単位の処理と疎結合を組み合わせるハイブリッド機能学習を提案する。
我々は、Waymoデータセット上での手法を評価し、同じデータに基づいてトレーニングされた最先端の \textit{HUM3DIL} と比較すると、MPJPEメトリックで27ドル%の改善を実現し、25ドル以上のデータセットで事前トレーニングされた最先端の \textit{GC-KPL} に対して12ドル%の改善を実現した。
我々の知る限りでは、 \textit{VoxelKP} は、LiDARデータからの3Dキーポイント推定の困難な課題に対処し、最先端のパフォーマンスを達成するために特別に設計された、最初のシングルステージで完全にスパースなネットワークである。
我々のコードは \url{https://github.com/shijianjian/VoxelKP} で入手できる。
関連論文リスト
- Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition [45.16530801796705]
CrossLoc3Dは、クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法である。
CS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。
論文 参考訳(メタデータ) (2023-03-31T02:50:52Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Graph R-CNN: Towards Accurate 3D Object Detection with
Semantic-Decorated Local Graph [26.226885108862735]
2段検出器は3次元物体検出で大いに人気を博している。
ほとんどの2段式3D検出器は、2段目のRoI特徴抽出にグリッドポイント、ボクセルグリッド、またはサンプルキーポイントを利用する。
本稿ではこの問題を3つの側面で解決する。
論文 参考訳(メタデータ) (2022-08-07T02:56:56Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - From Voxel to Point: IoU-guided 3D Object Detection for Point Cloud with
Voxel-to-Point Decoder [79.39041453836793]
We present an Intersection-over-Union (IoU) guided two-stage 3D object detector with a voxel-to-point decoder。
本稿では,Voxel based Region Proposal Network (RPN) からマップビュー機能に加えて,点特徴を抽出する残余のvoxel-to-pointデコーダを提案する。
そこで本研究では,推定したIoUと改良された提案ボックスをより関連性の高いローカライゼーション信頼度として整列する,簡便で効率的な手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T14:30:13Z) - Learning a Compact State Representation for Navigation Tasks by
Autoencoding 2D-Lidar Scans [7.99536002595393]
ナビゲーションタスクにおける強化学習のための2次元ライダースキャンのコンパクト表現を生成する。
特に,連続走査,特にエゴモーションの関係を,メモリモデルを適用して考察する。
実験により,ライダーデータを高度に圧縮し,潜伏空間の有意義な分布を維持し,時間依存情報を組み込む手法の有効性が示された。
論文 参考訳(メタデータ) (2021-02-03T16:10:26Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。