論文の概要: ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
- arxiv url: http://arxiv.org/abs/2208.01582v1
- Date: Tue, 2 Aug 2022 16:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:37:35.774927
- Title: ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
- Title(参考訳): ViP3D:3Dエージェントクエリによるエンドツーエンドの視覚軌道予測
- Authors: Junru Gu, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue
Wang, Hang Zhao
- Abstract要約: シーン内のエージェントの将来の軌跡を予測するために生ビデオからの豊富な情報を活用する視覚的軌跡予測パイプラインであるViP3Dを提案する。
ViP3Dはパイプライン全体にスパースエージェントクエリを採用しており、完全に識別可能で解釈可能である。
- 参考スコア(独自算出の注目度): 17.117542692443617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing autonomous driving pipelines separate the perception module from the
prediction module. The two modules communicate via hand-picked features such as
agent boxes and trajectories as interfaces. Due to this separation, the
prediction module only receives partial information from the perception module.
Even worse, errors from the perception modules can propagate and accumulate,
adversely affecting the prediction results. In this work, we propose ViP3D, a
visual trajectory prediction pipeline that leverages the rich information from
raw videos to predict future trajectories of agents in a scene. ViP3D employs
sparse agent queries throughout the pipeline, making it fully differentiable
and interpretable. Furthermore, we propose an evaluation metric for this novel
end-to-end visual trajectory prediction task. Extensive experimental results on
the nuScenes dataset show the strong performance of ViP3D over traditional
pipelines and previous end-to-end models.
- Abstract(参考訳): 既存の自律走行パイプラインは、知覚モジュールと予測モジュールを分離する。
2つのモジュールはエージェントボックスやトラジェクトリなどの手書きの機能をインターフェースとして通信する。
この分離のため、予測モジュールは知覚モジュールから部分的な情報のみを受け取る。
さらに悪いことに、知覚モジュールからのエラーは伝播し蓄積し、予測結果に悪影響を及ぼす。
そこで本研究では,生映像からの豊富な情報を活用し,シーン内のエージェントの将来の軌跡を予測する視覚軌跡予測パイプラインvip3dを提案する。
ViP3Dはパイプライン全体にスパースエージェントクエリを採用しており、完全に識別可能で解釈可能である。
さらに,この新たな視覚軌跡予測タスクの評価基準を提案する。
nuScenesデータセットの大規模な実験結果は、従来のパイプラインや従来のエンドツーエンドモデルよりも、ViP3Dの強力なパフォーマンスを示している。
関連論文リスト
- VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T06:39:52Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving [7.616422495497465]
不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-17T03:35:13Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud
Forecasting for Sequential Pose Forecasting [106.3504366501894]
自動運転車やロボット操作システムは、オブジェクトを最初に検出して追跡することによって、将来のオブジェクトのポーズを予測することが多い。
ポーズ予測アルゴリズムは通常、オブジェクトのポーズのラベル付きシーケンスを必要とするため、このパイプラインはスケールするのに費用がかかる。
本稿では,まず3次元センサデータを予測し,予測点雲列上の物体を検知・追跡し,将来的なポーズを求めることを提案する。
これにより、センサーデータ予測タスクにラベルが不要であるため、予測のスケールが難しくなる。
論文 参考訳(メタデータ) (2020-03-18T17:54:28Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。