Fugu-MT 論文翻訳(概要): FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving

論文の概要: FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving

arxiv url: http://arxiv.org/abs/2404.12867v1
Date: Fri, 19 Apr 2024 13:08:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 14:57:17.396129
Title: FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving
Title（参考訳）: FipTR: 自動運転における将来予測のためのシンプルで効果的なトランスフォーマーフレームワーク
Authors: Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang,
Abstract要約: Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、自動運転において不可欠な要素である。本稿では,Future Instance Prediction Transformer (FipTR) という完全エンドツーエンドのフレームワークを提案する。
参考スコア（独自算出の注目度）: 8.370230253558159
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The future instance prediction from a Bird's Eye View(BEV) perspective is a vital component in autonomous driving, which involves future instance segmentation and instance motion prediction. Existing methods usually rely on a redundant and complex pipeline which requires multiple auxiliary outputs and post-processing procedures. Moreover, estimated errors on each of the auxiliary predictions will lead to degradation of the prediction performance. In this paper, we propose a simple yet effective fully end-to-end framework named Future Instance Prediction Transformer(FipTR), which views the task as BEV instance segmentation and prediction for future frames. We propose to adopt instance queries representing specific traffic participants to directly estimate the corresponding future occupied masks, and thus get rid of complex post-processing procedures. Besides, we devise a flow-aware BEV predictor for future BEV feature prediction composed of a flow-aware deformable attention that takes backward flow guiding the offset sampling. A novel future instance matching strategy is also proposed to further improve the temporal coherence. Extensive experiments demonstrate the superiority of FipTR and its effectiveness under different temporal BEV encoders.
Abstract（参考訳）: Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、将来のインスタンスセグメンテーションとインスタンスの動き予測を含む、自動運転における重要なコンポーネントである。既存のメソッドは通常、複数の補助出力と後処理手順を必要とする冗長で複雑なパイプラインに依存している。さらに、各補助予測に対する推定誤差は、予測性能の低下につながる。本稿では,Future Instance Prediction Transformer (FipTR) という,BEVインスタンスのセグメンテーションと将来のフレームの予測を行うシンプルなエンドツーエンドフレームワークを提案する。本稿では,特定のトラフィック参加者を表すインスタンスクエリを採用して,対応する将来的なマスクを直接推定し,複雑な後処理手順を取り除くことを提案する。さらに,フロー認識型BEV予測器を考案し,オフセットサンプリングを導出する逆流を考慮に入れた,フロー認識変形性アテンションからなる将来のBEV特徴予測を行う。時間的コヒーレンスをさらに改善するために、新しい将来的なインスタンスマッチング戦略も提案されている。広汎な実験は、異なる時間的BEVエンコーダ下でのFipTRの優位性とその有効性を示す。

関連論文リスト

TrajDiff: End-to-end Autonomous Driving without Perception Annotation [65.49718343700319]
エンドツーエンドの自動運転システムは、生センサ入力から直接駆動ポリシーを生成する。 TrajDiffはTrajectory-oriented BEV Conditioned Diffusionフレームワークであり、エンドツーエンドの自動運転のための知覚アノテーションのない生成方法を確立する。 NAVSIMベンチマークで評価すると、TrajDiffは87.5 PDMSを達成した。
論文参考訳（メタデータ） (2025-11-30T04:34:20Z)
TARFVAE: Efficient One-Step Generative Time Series Forecasting via TARFLOW based VAE [3.7770105485163206]
本稿では,Transformer-based autoregressive Flow (TARFLOW) と変動型オートエンコーダ (VAE) を組み合わせた新しい生成フレームワークであるTARFVAEについて述べる。単純なモジュールでは、TARFVAEはデータセット上の様々な予測地平線を越えて、最先端の決定論的および生成的モデルよりも優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-11-28T03:19:14Z)
TrajFlow: Multi-modal Motion Prediction via Flow Matching [29.274577509291973]
本稿では,新しいフローマッチングに基づく動き予測フレームワークであるTrajFlowを紹介する。 TrajFlowは1回のパスで複数の可算な将来の軌跡を予測し、計算オーバーヘッドを大幅に削減する。さまざまな主要なメトリクスにわたって最先端のパフォーマンスを達成し、安全クリティカルな自動運転アプリケーションの有効性を裏付ける。
論文参考訳（メタデータ） (2025-06-10T08:08:31Z)
Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction [0.8458547573621331]
本稿では,単純化されたパラダイムに基づく新しいBEVインスタンス予測アーキテクチャを提案する。提案システムは,パラメータ数と推定時間を削減することを目的として,速度を優先する。提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。
論文参考訳（メタデータ） (2024-11-11T10:35:23Z)
AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文参考訳（メタデータ） (2024-03-20T06:22:37Z)
A Novel Deep Neural Network for Trajectory Prediction in Automated Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文参考訳（メタデータ） (2023-09-19T22:14:52Z)
PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird's-Eye View [14.113805629254191]
鳥眼ビュー(Bird's-eye view, BEV)は、自律運転の認識において一般的な場所である。 BEVインスタンス予測の既存のアプローチは、将来のインスタンスを予測するために、後処理と組み合わせたマルチタスクの自動回帰に依存している。提案手法は, 従来の手法の冗長性を低減すべく, 設計選択の異なる, POWERBEV という, 効率的なエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T08:11:05Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
Temporally-Continuous Probabilistic Prediction using Polynomial Trajectory Parameterization [12.896275507449936]
アクターの動作予測に一般的に使用される表現は、各アクターが個別の将来の時間ポイントで行う一連のウェイポイントである。このアプローチは単純で柔軟であるが、中間時間ステップで非現実的な高次微分や近似誤差を示すことができる。本稿では,軌道パラメータ化に基づく時間的連続軌道予測のための簡易かつ汎用的な表現を提案する。
論文参考訳（メタデータ） (2020-11-01T01:51:44Z)
Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-03T14:57:24Z)
AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2020-06-24T23:13:11Z)
TPNet: Trajectory Proposal Network for Motion Prediction [81.28716372763128]
Trajectory Proposal Network (TPNet) は、新しい2段階の動作予測フレームワークである。 TPNetはまず、仮説の提案として将来の軌道の候補セットを生成し、次に提案の分類と修正によって最終的な予測を行う。 4つの大規模軌道予測データセットの実験は、TPNetが定量的かつ定性的に、最先端の結果を達成することを示した。
論文参考訳（メタデータ） (2020-04-26T00:01:49Z)
TTPP: Temporal Transformer with Progressive Prediction for Efficient Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文参考訳（メタデータ） (2020-03-07T07:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。