論文の概要: Waymo-3DSkelMo: A Multi-Agent 3D Skeletal Motion Dataset for Pedestrian Interaction Modeling in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.09404v1
- Date: Wed, 13 Aug 2025 00:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.718634
- Title: Waymo-3DSkelMo: A Multi-Agent 3D Skeletal Motion Dataset for Pedestrian Interaction Modeling in Autonomous Driving
- Title(参考訳): Waymo-3DSkelMo: 自律運転における歩行者インタラクションモデリングのためのマルチエージェント3次元骨格運動データセット
- Authors: Guangxun Zhu, Shiyu Fan, Hang Dai, Edmond S. L. Ho,
- Abstract要約: 3DSkelMoは、明示的な相互作用意味を持つ高品質で時間的に整合した3D骨格運動を提供する最初の大規模データセットである。
データセットは、800以上の実走行シナリオで14,000秒以上をカバーしている。
- 参考スコア(独自算出の注目度): 14.206170348283816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale high-quality 3D motion datasets with multi-person interactions are crucial for data-driven models in autonomous driving to achieve fine-grained pedestrian interaction understanding in dynamic urban environments. However, existing datasets mostly rely on estimating 3D poses from monocular RGB video frames, which suffer from occlusion and lack of temporal continuity, thus resulting in unrealistic and low-quality human motion. In this paper, we introduce Waymo-3DSkelMo, the first large-scale dataset providing high-quality, temporally coherent 3D skeletal motions with explicit interaction semantics, derived from the Waymo Perception dataset. Our key insight is to utilize 3D human body shape and motion priors to enhance the quality of the 3D pose sequences extracted from the raw LiDRA point clouds. The dataset covers over 14,000 seconds across more than 800 real driving scenarios, including rich interactions among an average of 27 agents per scene (with up to 250 agents in the largest scene). Furthermore, we establish 3D pose forecasting benchmarks under varying pedestrian densities, and the results demonstrate its value as a foundational resource for future research on fine-grained human behavior understanding in complex urban environments. The dataset and code will be available at https://github.com/GuangxunZhu/Waymo-3DSkelMo
- Abstract(参考訳): 多対人インタラクションを備えた大規模高品質な3Dモーションデータセットは、動的都市環境における詳細な歩行者インタラクション理解を実現するために、自律運転におけるデータ駆動モデルにとって不可欠である。
しかし、既存のデータセットは、主に単眼のRGBビデオフレームから3Dのポーズを推定することに依存しており、これは排他的かつ時間的連続性の欠如に悩まされ、非現実的で低品質な人間の動きをもたらす。
本稿では、Waymo Perceptionデータセットから派生した明示的なインタラクションセマンティクスを備えた、高品質で時間的コヒーレントな3D骨格運動を提供する最初の大規模データセットであるWaymo-3DSkelMoを紹介する。
我々の重要な洞察は、生のLiDRA点雲から抽出した3次元ポーズ配列の品質を高めるために、3次元の人体形状と動きを前もって利用することである。
このデータセットは、800以上の実走行シナリオで14,000秒以上をカバーしており、1シーン当たり平均27エージェント(最大250エージェント)間のリッチなインタラクションを含んでいる。
さらに, 歩行者密度の異なる3次元ポーズ予測ベンチマークを構築し, 複雑な都市環境における人間の行動理解の精密化に向けた基礎資料としての価値を実証した。
データセットとコードはhttps://github.com/GuangxunZhu/Waymo-3DSkelMoで利用可能になる。
関連論文リスト
- Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - M3Act: Learning from Synthetic Human Group Activities [18.264989896254523]
M3Actはマルチビュー・マルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータである。
Unity Engineによって開発されたM3Actは、複数のセマンティックグループ、非常に多様なフォトリアリスティックなイメージを備えている。
M3Actは、DanceTrackデータセットの最先端のMOTRv2を改善し、リーダボードを10位から2位までホップする。
論文 参考訳(メタデータ) (2023-06-29T08:13:57Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Large Scale Interactive Motion Forecasting for Autonomous Driving : The
Waymo Open Motion Dataset [84.3946567650148]
10万枚以上のシーンが10Hzで20秒に渡り、私たちの新しいデータセットには1750kmの道路上の570時間以上のユニークなデータが含まれています。
高精度な3d自動ラベルシステムを用いて,道路エージェント毎に高品質な3dバウンディングボックスを生成する。
シングルエージェントとジョイントエージェントの相互作用運動予測モデルの両方を総合的に評価する新しいメトリクスセットを紹介します。
論文 参考訳(メタデータ) (2021-04-20T17:19:05Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。