論文の概要: ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
- arxiv url: http://arxiv.org/abs/2208.01582v3
- Date: Mon, 19 Jun 2023 11:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:58:41.701723
- Title: ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
- Title(参考訳): ViP3D:3Dエージェントクエリによるエンドツーエンドの視覚軌道予測
- Authors: Junru Gu, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue
Wang, Hang Zhao
- Abstract要約: 本稿では,クエリに基づく視覚軌跡予測パイプラインであるViP3Dを提案する。
シーン内のエージェントの将来の軌跡を直接予測するために、生のビデオから豊富な情報を利用する。
ViP3Dはスパースエージェントクエリを使用してパイプライン全体を検出し、追跡し、予測する。
- 参考スコア(独自算出の注目度): 17.117542692443617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception and prediction are two separate modules in the existing autonomous
driving systems. They interact with each other via hand-picked features such as
agent bounding boxes and trajectories. Due to this separation, prediction, as a
downstream module, only receives limited information from the perception
module. To make matters worse, errors from the perception modules can propagate
and accumulate, adversely affecting the prediction results. In this work, we
propose ViP3D, a query-based visual trajectory prediction pipeline that
exploits rich information from raw videos to directly predict future
trajectories of agents in a scene. ViP3D employs sparse agent queries to
detect, track, and predict throughout the pipeline, making it the first fully
differentiable vision-based trajectory prediction approach. Instead of using
historical feature maps and trajectories, useful information from previous
timestamps is encoded in agent queries, which makes ViP3D a concise streaming
prediction method. Furthermore, extensive experimental results on the nuScenes
dataset show the strong vision-based prediction performance of ViP3D over
traditional pipelines and previous end-to-end models.
- Abstract(参考訳): 知覚と予測は、既存の自律運転システムでは2つの別々のモジュールである。
エージェントバウンディングボックスやトラジェクタなどの手動で選択した機能を通じて相互に対話する。
この分離のため、下流モジュールとしての予測は知覚モジュールから限られた情報しか受信しない。
さらに悪いことに、知覚モジュールからのエラーは伝播し蓄積することができ、予測結果に悪影響を及ぼす。
本研究では,生映像からの豊富な情報を活用し,シーン内のエージェントの将来の軌跡を直接予測する,クエリベースのビジュアル軌跡予測パイプラインvip3dを提案する。
ViP3Dはスパースエージェントクエリを使用してパイプライン全体を検出し、追跡し、予測する。
過去の特徴マップやトラジェクトリを使う代わりに、過去のタイムスタンプからの有用な情報をエージェントクエリにエンコードすることで、ViP3Dを簡潔なストリーミング予測手法にする。
さらに、nuScenesデータセットの広範な実験結果から、従来のパイプラインや従来のエンドツーエンドモデルよりも強力なビジョンベースのViP3D予測性能が示されている。
関連論文リスト
- VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T06:39:52Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving [7.616422495497465]
不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-17T03:35:13Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud
Forecasting for Sequential Pose Forecasting [106.3504366501894]
自動運転車やロボット操作システムは、オブジェクトを最初に検出して追跡することによって、将来のオブジェクトのポーズを予測することが多い。
ポーズ予測アルゴリズムは通常、オブジェクトのポーズのラベル付きシーケンスを必要とするため、このパイプラインはスケールするのに費用がかかる。
本稿では,まず3次元センサデータを予測し,予測点雲列上の物体を検知・追跡し,将来的なポーズを求めることを提案する。
これにより、センサーデータ予測タスクにラベルが不要であるため、予測のスケールが難しくなる。
論文 参考訳(メタデータ) (2020-03-18T17:54:28Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。