論文の概要: HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2212.07729v1
- Date: Thu, 15 Dec 2022 11:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:59:03.868908
- Title: HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving
- Title(参考訳): HUM3DIL:自律運転のための半教師付きマルチモーダル3次元人物位置推定
- Authors: Andrei Zanfir, Mihai Zanfir, Alexander Gorban, Jingwei Ji, Yin Zhou,
Dragomir Anguelov and Cristian Sminchisescu
- Abstract要約: 3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
- 参考スコア(独自算出の注目度): 95.42203932627102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving is an exciting new industry, posing important research
questions. Within the perception module, 3D human pose estimation is an
emerging technology, which can enable the autonomous vehicle to perceive and
understand the subtle and complex behaviors of pedestrians. While hardware
systems and sensors have dramatically improved over the decades -- with cars
potentially boasting complex LiDAR and vision systems and with a growing
expansion of the available body of dedicated datasets for this newly available
information -- not much work has been done to harness these novel signals for
the core problem of 3D human pose estimation. Our method, which we coin HUM3DIL
(HUMan 3D from Images and LiDAR), efficiently makes use of these complementary
signals, in a semi-supervised fashion and outperforms existing methods with a
large margin. It is a fast and compact model for onboard deployment.
Specifically, we embed LiDAR points into pixel-aligned multi-modal features,
which we pass through a sequence of Transformer refinement stages. Quantitative
experiments on the Waymo Open Dataset support these claims, where we achieve
state-of-the-art results on the task of 3D pose estimation.
- Abstract(参考訳): 自動運転はエキサイティングな新しい産業であり、重要な研究課題を提起している。
認識モジュール内の3D人間のポーズ推定は、歩行者の微妙で複雑な振る舞いを自動運転車が知覚し理解できるようにする新しい技術である。
ハードウェアシステムとセンサーは、何十年にもわたって劇的に改善され、複雑なLiDARとビジョンシステムを持つ車や、この新たな情報のために利用可能な専用のデータセットが拡張されている。
HUM3DIL (HUMan 3D from Images and LiDAR) と命名した本手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
これは、オンボードデプロイメントのための高速でコンパクトなモデルです。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
Waymo Open Datasetの定量的実験はこれらの主張をサポートし、3Dポーズ推定のタスクに関する最先端の結果を得る。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Weakly Supervised Multi-Modal 3D Human Body Pose Estimation for
Autonomous Driving [0.5735035463793008]
3次元の人間のポーズ推定は、自動運転車(AV)が重要な道路シナリオにおいて情報的決定を行い、積極的に対応できるようにするために不可欠である。
カメラとLiDARデータを高レベルなセンサーで融合させることにより,AV環境下での3次元HPEの簡易かつ効率的な制御手法を提案する。
当社のアプローチは、弱教師付き環境でのオープンデータセットにおいて、最先端の結果を最大13%$simで上回ります。
論文 参考訳(メタデータ) (2023-07-27T14:28:50Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。