論文の概要: Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D
Human Keypoints
- arxiv url: http://arxiv.org/abs/2306.01075v1
- Date: Thu, 1 Jun 2023 18:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:23:07.670218
- Title: Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D
Human Keypoints
- Title(参考訳): 3次元キーポイントを用いた歩行者横断行動認識と軌道予測
- Authors: Jiachen Li, Xinwei Shi, Feiyu Chen, Jonathan Stroud, Zhishuai Zhang,
Tian Lan, Junhua Mao, Jeonhyung Kang, Khaled S. Refaat, Weilong Yang, Eugene
Ie, Congcong Li
- Abstract要約: 歩行者の横断行動認識と軌道予測のための新しいマルチタスク学習フレームワークを提案する。
生のセンサデータから抽出した3D人間のキーポイントを用いて、人間のポーズや活動に関する豊富な情報をキャプチャする。
提案手法は,幅広い評価指標を用いて最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 25.550524178542833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate understanding and prediction of human behaviors are critical
prerequisites for autonomous vehicles, especially in highly dynamic and
interactive scenarios such as intersections in dense urban areas. In this work,
we aim at identifying crossing pedestrians and predicting their future
trajectories. To achieve these goals, we not only need the context information
of road geometry and other traffic participants but also need fine-grained
information of the human pose, motion and activity, which can be inferred from
human keypoints. In this paper, we propose a novel multi-task learning
framework for pedestrian crossing action recognition and trajectory prediction,
which utilizes 3D human keypoints extracted from raw sensor data to capture
rich information on human pose and activity. Moreover, we propose to apply two
auxiliary tasks and contrastive learning to enable auxiliary supervisions to
improve the learned keypoints representation, which further enhances the
performance of major tasks. We validate our approach on a large-scale in-house
dataset, as well as a public benchmark dataset, and show that our approach
achieves state-of-the-art performance on a wide range of evaluation metrics.
The effectiveness of each model component is validated in a detailed ablation
study.
- Abstract(参考訳): 人間の行動の正確な理解と予測は自動運転車にとって重要な前提条件であり、特に密集した都市部の交差点のような高度にダイナミックでインタラクティブなシナリオでは重要である。
本研究は,横断歩行者の識別と今後の軌跡の予測を目的とする。
これらの目的を達成するためには,道路形状や交通参加者の文脈情報だけでなく,人間の行動や動き,行動など,人間のキーポイントから推測できる詳細な情報も必要である。
本稿では,センサデータから抽出した3次元キーポイントを用いて,歩行者横断行動認識と軌跡予測のためのマルチタスク学習フレームワークを提案する。
さらに,2つの補助タスクと対照学習を適用し,補助監督による学習キーポイント表現の改善を可能にし,主要なタスクの性能をさらに高めることを提案する。
当社のアプローチは,大規模社内データセットと公開ベンチマークデータセット上で検証し,幅広い評価指標で最先端のパフォーマンスを実現することを実証する。
各モデル成分の有効性を詳細なアブレーション研究で検証する。
関連論文リスト
- Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - 2D Human Pose Estimation: A Survey [16.56050212383859]
人間のポーズ推定は、入力データ中の人間の解剖学的キーポイントまたは身体部分のローカライズを目的としている。
ディープラーニング技術は、データから直接特徴表現を学習することを可能にする。
本稿では,近年の2次元ポーズ推定手法の成果を振り返り,包括的調査を行う。
論文 参考訳(メタデータ) (2022-04-15T08:09:43Z) - Important Object Identification with Semi-Supervised Learning for
Autonomous Driving [37.654878298744855]
本稿では,エゴセントリック駆動シナリオにおける重要な物体識別のための新しい手法を提案する。
モデルが無制限なラベル付きデータから学習できるようにするための,半教師付き学習パイプラインを提案する。
私たちのアプローチはルールベースのベースラインよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-03-05T01:23:13Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Graph-SIM: A Graph-based Spatiotemporal Interaction Modelling for
Pedestrian Action Prediction [10.580548257913843]
本稿では,歩行者の横断行動を予測するための新しいグラフベースモデルを提案する。
既存のnuScenesデータセットに対して、3Dバウンディングボックスと歩行者行動アノテーションを提供する新しいデータセットを紹介します。
提案手法は,既存の手法と比較して,様々な指標を15%以上改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-03T18:28:27Z) - Recognition and 3D Localization of Pedestrian Actions from Monocular
Video [11.29865843123467]
本稿では,エゴセントリックな視点から,単眼歩行行動認識と3D位置認識に焦点を当てた。
都市交通シーンにおけるこの問題に対処する上での課題は、歩行者の予測不可能な行動に起因する。
論文 参考訳(メタデータ) (2020-08-03T19:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。