論文の概要: Weakly Supervised Multi-Modal 3D Human Body Pose Estimation for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2307.14889v1
- Date: Thu, 27 Jul 2023 14:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:21:16.080970
- Title: Weakly Supervised Multi-Modal 3D Human Body Pose Estimation for
Autonomous Driving
- Title(参考訳): 自律運転のための多モード3次元人体姿勢推定法
- Authors: Peter Bauer, Arij Bouazizi, Ulrich Kressel, Fabian B. Flohr
- Abstract要約: 3次元の人間のポーズ推定は、自動運転車(AV)が重要な道路シナリオにおいて情報的決定を行い、積極的に対応できるようにするために不可欠である。
カメラとLiDARデータを高レベルなセンサーで融合させることにより,AV環境下での3次元HPEの簡易かつ効率的な制御手法を提案する。
当社のアプローチは、弱教師付き環境でのオープンデータセットにおいて、最先端の結果を最大13%$simで上回ります。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D human pose estimation (3D HPE) is crucial for enabling autonomous
vehicles (AVs) to make informed decisions and respond proactively in critical
road scenarios. Promising results of 3D HPE have been gained in several domains
such as human-computer interaction, robotics, sports and medical analytics,
often based on data collected in well-controlled laboratory environments.
Nevertheless, the transfer of 3D HPE methods to AVs has received limited
research attention, due to the challenges posed by obtaining accurate 3D pose
annotations and the limited suitability of data from other domains.
We present a simple yet efficient weakly supervised approach for 3D HPE in
the AV context by employing a high-level sensor fusion between camera and LiDAR
data. The weakly supervised setting enables training on the target datasets
without any 2D/3D keypoint labels by using an off-the-shelf 2D joint extractor
and pseudo labels generated from LiDAR to image projections. Our approach
outperforms state-of-the-art results by up to $\sim$ 13% on the Waymo Open
Dataset in the weakly supervised setting and achieves state-of-the-art results
in the supervised setting.
- Abstract(参考訳): 正確な3次元ポーズ推定(3D HPE)は、自動運転車(AV)が決定を下し、重要な道路シナリオで積極的に対応できるようにするために不可欠である。
人-コンピュータインタラクション、ロボティクス、スポーツ、医療分析など、よく制御された実験室環境で収集されたデータに基づいて、3D HPEの結果が得られた。
それでも、正確な3Dポーズアノテーションを得ることによる課題と、他のドメインからのデータの適合性の制限により、3D HPEメソッドのAVへの転送は研究の注目を集めている。
カメラとLiDARデータを高レベルなセンサーで融合させることにより,AV環境での3次元HPEの簡易かつ効率的な制御手法を提案する。
この弱い教師付き設定は、2d/3dキーポイントラベルを用いずに、lidarから生成された擬似ラベルと画像投影を用いてターゲットデータセットのトレーニングを可能にする。
当社の手法は, Waymo Open Datasetにおいて, 弱教師付き設定で最大13%$\sim$13%の最先端結果より優れ, 教師付き設定で最先端結果を達成する。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。