論文の概要: Pedestrian 3D Bounding Box Prediction
- arxiv url: http://arxiv.org/abs/2206.14195v1
- Date: Tue, 28 Jun 2022 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 14:41:01.324463
- Title: Pedestrian 3D Bounding Box Prediction
- Title(参考訳): 歩行者3次元バウンディングボックス予測
- Authors: Saeed Saadatnejad, Yi Zhou Ju, Alexandre Alahi
- Abstract要約: 我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。
本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。
この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
- 参考スコア(独自算出の注目度): 83.7135926821794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is still the main issue of autonomous driving, and in order to be
globally deployed, they need to predict pedestrians' motions sufficiently in
advance. While there is a lot of research on coarse-grained (human center
prediction) and fine-grained predictions (human body keypoints prediction), we
focus on 3D bounding boxes, which are reasonable estimates of humans without
modeling complex motion details for autonomous vehicles. This gives the
flexibility to predict in longer horizons in real-world settings. We suggest
this new problem and present a simple yet effective model for pedestrians' 3D
bounding box prediction. This method follows an encoder-decoder architecture
based on recurrent neural networks, and our experiments show its effectiveness
in both the synthetic (JTA) and real-world (NuScenes) datasets. The learned
representation has useful information to enhance the performance of other
tasks, such as action anticipation. Our code is available online:
https://github.com/vita-epfl/bounding-box-prediction
- Abstract(参考訳): 安全は依然として自動運転の主要な問題であり、グローバルに展開するためには、歩行者の動きを十分に予測する必要がある。
粗い粒度の予測(人間中心予測)ときめ細かい粒度の予測(人体キーポイント予測)について多くの研究があるが、我々は自動運転車の複雑な動きの詳細をモデル化することなく、人間の合理的な推定である3Dバウンディングボックスに焦点を当てている。
これにより、現実世界の設定でより長い地平線で予測する柔軟性が得られる。
この新しい課題を提案し,歩行者の3dバウンディングボックス予測のための簡易かつ効果的なモデルを提案する。
本手法は,リカレントニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従い,合成データ(jta)と実世界データ(nuscenes)の両方においてその効果を示す。
学習された表現は、アクション予測などの他のタスクのパフォーマンスを高めるのに有用な情報を持っている。
私たちのコードはオンラインで入手できる。 https://github.com/vita-epfl/bounding-box-prediction
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - PePScenes: A Novel Dataset and Baseline for Pedestrian Action Prediction
in 3D [10.580548257913843]
nuScenesにフレーム毎の2D/3Dバウンディングボックスと動作アノテーションを追加して作成された新しい歩行者行動予測データセットを提案する。
また,歩行者横断行動予測のための様々なデータモダリティを組み込んだハイブリッドニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-14T18:13:44Z) - Pedestrian Intention Prediction: A Multi-task Perspective [83.7135926821794]
グローバルに展開するためには、自動運転車は歩行者の安全を保証する必要がある。
本研究は歩行者の意図と視覚状態を共同で予測することでこの問題を解決しようとするものである。
この方法はマルチタスク学習アプローチにおけるリカレントニューラルネットワークである。
論文 参考訳(メタデータ) (2020-10-20T13:42:31Z) - A Real-Time Predictive Pedestrian Collision Warning Service for
Cooperative Intelligent Transportation Systems Using 3D Pose Estimation [10.652350454373531]
歩行者方向認識(100.53 FPS)と意図予測(35.76 FPS)の2つのタスクに対して,リアルタイムな歩行者衝突警報サービス(P2CWS)を提案する。
提案手法は,提案したサイトに依存しない特徴により,複数のサイトに対する一般化を満足する。
提案したビジョンフレームワークは、トレーニングプロセスなしでTUDデータセットの行動認識タスクの89.3%の精度を実現する。
論文 参考訳(メタデータ) (2020-09-23T00:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。