論文の概要: FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2404.12867v2
- Date: Wed, 24 Jul 2024 10:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:51:23.080608
- Title: FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving
- Title(参考訳): FipTR: 自動運転における将来予測のためのシンプルで効果的なトランスフォーマーフレームワーク
- Authors: Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang,
- Abstract要約: Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、自動運転において不可欠な要素である。
本稿では,Future Instance Prediction Transformer(FipTR)という,シンプルで効果的なエンドツーエンドフレームワークを提案する。
本稿では,Future Instance Prediction Transformer(FipTR)という,シンプルで効果的なエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.370230253558159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The future instance prediction from a Bird's Eye View(BEV) perspective is a vital component in autonomous driving, which involves future instance segmentation and instance motion prediction. Existing methods usually rely on a redundant and complex pipeline which requires multiple auxiliary outputs and post-processing procedures. Moreover, estimated errors on each of the auxiliary predictions will lead to degradation of the prediction performance. In this paper, we propose a simple yet effective fully end-to-end framework named Future Instance Prediction Transformer(FipTR), which views the task as BEV instance segmentation and prediction for future frames. We propose to adopt instance queries representing specific traffic participants to directly estimate the corresponding future occupied masks, and thus get rid of complex post-processing procedures. Besides, we devise a flow-aware BEV predictor for future BEV feature prediction composed of a flow-aware deformable attention that takes backward flow guiding the offset sampling. A novel future instance matching strategy is also proposed to further improve the temporal coherence. Extensive experiments demonstrate the superiority of FipTR and its effectiveness under different temporal BEV encoders. The code is available at https://github.com/TabGuigui/FipTR .
- Abstract(参考訳): Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、将来のインスタンスセグメンテーションとインスタンスの動き予測を含む、自動運転における重要なコンポーネントである。
既存のメソッドは通常、複数の補助出力と後処理手順を必要とする冗長で複雑なパイプラインに依存している。
さらに、各補助予測に対する推定誤差は、予測性能の低下につながる。
本稿では,Future Instance Prediction Transformer (FipTR) という,BEVインスタンスのセグメンテーションと将来のフレームの予測を行うシンプルなエンドツーエンドフレームワークを提案する。
本稿では,特定のトラフィック参加者を表すインスタンスクエリを採用して,対応する将来的なマスクを直接推定し,複雑な後処理手順を取り除くことを提案する。
さらに,フロー認識型BEV予測器を考案し,オフセットサンプリングを導出する逆流を考慮に入れた,フロー認識変形性アテンションからなる将来のBEV特徴予測を行う。
時間的コヒーレンスをさらに改善するために、新しい将来的なインスタンスマッチング戦略も提案されている。
広汎な実験は、異なる時間的BEVエンコーダ下でのFipTRの優位性とその有効性を示す。
コードはhttps://github.com/TabGuigui/FipTRで公開されている。
関連論文リスト
- AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - A Novel Deep Neural Network for Trajectory Prediction in Automated
Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。
精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文 参考訳(メタデータ) (2023-09-19T22:14:52Z) - PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction
in Bird's-Eye View [14.113805629254191]
鳥眼ビュー(Bird's-eye view, BEV)は、自律運転の認識において一般的な場所である。
BEVインスタンス予測の既存のアプローチは、将来のインスタンスを予測するために、後処理と組み合わせたマルチタスクの自動回帰に依存している。
提案手法は, 従来の手法の冗長性を低減すべく, 設計選択の異なる, POWERBEV という, 効率的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:11:05Z) - StreamingFlow: Streaming Occupancy Forecasting with Asynchronous Multi-modal Data Streams via Neural Ordinary Differential Equation [15.441175735210791]
StreamingFlowは、非同期マルチセンサーデータストリームを融合するために取り込む、新しいBEV占有予測器である。
時間的地平線上でのBEV特徴の微分を学習し、融合プロセスの一部として暗黙センサのBEV特徴を更新し、BEV状態を望ましい将来時点に伝播する。
従来のビジョンベース、LiDARベースの手法よりも優れており、最先端の融合方式よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-19T14:38:01Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Temporally-Continuous Probabilistic Prediction using Polynomial
Trajectory Parameterization [12.896275507449936]
アクターの動作予測に一般的に使用される表現は、各アクターが個別の将来の時間ポイントで行う一連のウェイポイントである。
このアプローチは単純で柔軟であるが、中間時間ステップで非現実的な高次微分や近似誤差を示すことができる。
本稿では,軌道パラメータ化に基づく時間的連続軌道予測のための簡易かつ汎用的な表現を提案する。
論文 参考訳(メタデータ) (2020-11-01T01:51:44Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z) - TPNet: Trajectory Proposal Network for Motion Prediction [81.28716372763128]
Trajectory Proposal Network (TPNet) は、新しい2段階の動作予測フレームワークである。
TPNetはまず、仮説の提案として将来の軌道の候補セットを生成し、次に提案の分類と修正によって最終的な予測を行う。
4つの大規模軌道予測データセットの実験は、TPNetが定量的かつ定性的に、最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-04-26T00:01:49Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。