論文の概要: FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2404.12867v1
- Date: Fri, 19 Apr 2024 13:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:57:17.396129
- Title: FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving
- Title(参考訳): FipTR: 自動運転における将来予測のためのシンプルで効果的なトランスフォーマーフレームワーク
- Authors: Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang,
- Abstract要約: Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、自動運転において不可欠な要素である。
本稿では,Future Instance Prediction Transformer (FipTR) という完全エンドツーエンドのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.370230253558159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The future instance prediction from a Bird's Eye View(BEV) perspective is a vital component in autonomous driving, which involves future instance segmentation and instance motion prediction. Existing methods usually rely on a redundant and complex pipeline which requires multiple auxiliary outputs and post-processing procedures. Moreover, estimated errors on each of the auxiliary predictions will lead to degradation of the prediction performance. In this paper, we propose a simple yet effective fully end-to-end framework named Future Instance Prediction Transformer(FipTR), which views the task as BEV instance segmentation and prediction for future frames. We propose to adopt instance queries representing specific traffic participants to directly estimate the corresponding future occupied masks, and thus get rid of complex post-processing procedures. Besides, we devise a flow-aware BEV predictor for future BEV feature prediction composed of a flow-aware deformable attention that takes backward flow guiding the offset sampling. A novel future instance matching strategy is also proposed to further improve the temporal coherence. Extensive experiments demonstrate the superiority of FipTR and its effectiveness under different temporal BEV encoders.
- Abstract(参考訳): Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、将来のインスタンスセグメンテーションとインスタンスの動き予測を含む、自動運転における重要なコンポーネントである。
既存のメソッドは通常、複数の補助出力と後処理手順を必要とする冗長で複雑なパイプラインに依存している。
さらに、各補助予測に対する推定誤差は、予測性能の低下につながる。
本稿では,Future Instance Prediction Transformer (FipTR) という,BEVインスタンスのセグメンテーションと将来のフレームの予測を行うシンプルなエンドツーエンドフレームワークを提案する。
本稿では,特定のトラフィック参加者を表すインスタンスクエリを採用して,対応する将来的なマスクを直接推定し,複雑な後処理手順を取り除くことを提案する。
さらに,フロー認識型BEV予測器を考案し,オフセットサンプリングを導出する逆流を考慮に入れた,フロー認識変形性アテンションからなる将来のBEV特徴予測を行う。
時間的コヒーレンスをさらに改善するために、新しい将来的なインスタンスマッチング戦略も提案されている。
広汎な実験は、異なる時間的BEVエンコーダ下でのFipTRの優位性とその有効性を示す。
関連論文リスト
- AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - A Novel Deep Neural Network for Trajectory Prediction in Automated
Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。
精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文 参考訳(メタデータ) (2023-09-19T22:14:52Z) - PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction
in Bird's-Eye View [14.113805629254191]
鳥眼ビュー(Bird's-eye view, BEV)は、自律運転の認識において一般的な場所である。
BEVインスタンス予測の既存のアプローチは、将来のインスタンスを予測するために、後処理と組み合わせたマルチタスクの自動回帰に依存している。
提案手法は, 従来の手法の冗長性を低減すべく, 設計選択の異なる, POWERBEV という, 効率的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:11:05Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Random vector functional link neural network based ensemble deep
learning for short-term load forecasting [14.184042046855884]
本稿では,電力負荷予測のための新しいアンサンブルディープランダム関数リンク(edRVFL)を提案する。
隠されたレイヤは、深い表現学習を強制するために積み上げられます。
モデルは各層の出力をアンサンブルすることで予測を生成する。
論文 参考訳(メタデータ) (2021-07-30T01:20:48Z) - Temporally-Continuous Probabilistic Prediction using Polynomial
Trajectory Parameterization [12.896275507449936]
アクターの動作予測に一般的に使用される表現は、各アクターが個別の将来の時間ポイントで行う一連のウェイポイントである。
このアプローチは単純で柔軟であるが、中間時間ステップで非現実的な高次微分や近似誤差を示すことができる。
本稿では,軌道パラメータ化に基づく時間的連続軌道予測のための簡易かつ汎用的な表現を提案する。
論文 参考訳(メタデータ) (2020-11-01T01:51:44Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - TPNet: Trajectory Proposal Network for Motion Prediction [81.28716372763128]
Trajectory Proposal Network (TPNet) は、新しい2段階の動作予測フレームワークである。
TPNetはまず、仮説の提案として将来の軌道の候補セットを生成し、次に提案の分類と修正によって最終的な予測を行う。
4つの大規模軌道予測データセットの実験は、TPNetが定量的かつ定性的に、最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-04-26T00:01:49Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。