論文の概要: BEVPredFormer: Spatio-temporal Attention for BEV Instance Prediction in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.02930v1
- Date: Fri, 03 Apr 2026 09:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.44009
- Title: BEVPredFormer: Spatio-temporal Attention for BEV Instance Prediction in Autonomous Driving
- Title(参考訳): BEVPredFormer:自動運転におけるBEVインスタンス予測のための時空間的注意
- Authors: Miguel Antunes-García, Santiago Montiel-Marín, Fabio Sánchez-García, Rodrigo Gutiérrez-Moreno, Rafael Barea, Luis M. Bergasa,
- Abstract要約: 本稿では,BEV予測のためのカメラ専用アーキテクチャであるBEVPredFormerを紹介する。
注意に基づく時間的処理を使用して、シーンの時間的および空間的理解を改善する。
nuScenesデータセットで評価され、State-Of-The-Artメソッドと同程度か超えた。
- 参考スコア(独自算出の注目度): 1.5327485092552822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A robust awareness of how dynamic scenes evolve is essential for Autonomous Driving systems, as they must accurately detect, track, and predict the behaviour of surrounding obstacles. Traditional perception pipelines that rely on modular architectures tend to suffer from cumulative errors and latency. Instance Prediction models provide a unified solution, performing Bird's-Eye-View segmentation and motion estimation across current and future frames using information directly obtained from different sensors. However, a key challenge in these models lies in the effective processing of the dense spatial and temporal information inherent in dynamic driving environments. This level of complexity demands architectures capable of capturing fine-grained motion patterns and long-range dependencies without compromising real-time performance. We introduce BEVPredFormer, a novel camera-only architecture for BEV instance prediction that uses attention-based temporal processing to improve temporal and spatial comprehension of the scene and relies on an attention-based 3D projection of the camera information. BEVPredFormer employs a recurrent-free design that incorporates gated transformer layers, divided spatio-temporal attention mechanisms, and multi-scale head tasks. Additionally, we incorporate a difference-guided feature extraction module that enhances temporal representations. Extensive ablation studies validate the effectiveness of each architectural component. When evaluated on the nuScenes dataset, BEVPredFormer was on par or surpassed State-Of-The-Art methods, highlighting its potential for robust and efficient Autonomous Driving perception.
- Abstract(参考訳): 自律運転システムには、周囲の障害物の挙動を正確に検出し、追跡し、予測する必要があるため、ダイナミックなシーンの進化に対する堅牢な認識が不可欠である。
モジュールアーキテクチャに依存する従来の知覚パイプラインは、累積的なエラーとレイテンシに悩まされる傾向がある。
インスタンス予測モデルは統一されたソリューションを提供し、異なるセンサーから直接取得した情報を使用して、現在のフレームと将来のフレームをまたいだBird's-Eye-Viewセグメンテーションとモーション推定を行う。
しかし、これらのモデルにおける重要な課題は、動的駆動環境に固有の密集した空間的および時間的情報の効率的な処理である。
このレベルの複雑さは、リアルタイムのパフォーマンスを損なうことなく、きめ細かい動きパターンと長距離依存をキャプチャできるアーキテクチャを必要とする。
本稿では,BEVインスタンス予測のための新しいカメラ専用アーキテクチャであるBEVPredFormerを紹介し,シーンの時間的・空間的理解を改善するために注目ベースの時間的処理を用い,カメラ情報の3次元投影に依存している。
BEVPredFormerは、ゲートトランスフォーマー層、分割時空間アテンション機構、マルチスケールヘッドタスクを組み込んだリカレントフリーな設計を採用している。
さらに、時間的表現を強化する差分誘導特徴抽出モジュールを組み込んだ。
大規模なアブレーション研究は、各アーキテクチャコンポーネントの有効性を検証する。
nuScenesデータセットで評価すると、BEVPredFormerはState-Of-The-Artメソッドと同程度あるいは超えており、堅牢で効率的な自律運転認識の可能性を強調している。
関連論文リスト
- Online Segment Any 3D Thing as Instance Tracking [60.20416622842975]
オンライン3Dセグメンテーションをインスタンス追跡問題として再認識する(AutoSeg3D)。
視覚基礎モデルに固有の断片化問題を緩和するために,空間整合性学習を導入する。
ScanNet200上でESAMを2.8 AP上回る新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-12-08T14:48:51Z) - STORM: Segment, Track, and Object Re-Localization from a Single 3D Model [35.39496117133769]
STORMはオープンソースの堅牢なリアルタイム6Dポーズ推定システムで、手動のアノテーションを必要としない。
STORMは、視覚監督型理解と自己言語機能マッチングを組み合わせた、新しい3段階パイプラインを採用している。
論文 参考訳(メタデータ) (2025-11-12T22:06:51Z) - MARAuder's Map: Motion-Aware Real-time Activity Recognition with Layout-Based Trajectories [3.788163163289351]
本稿では,未分割のセンサストリームからリアルタイムなアクティビティ認識のための新しいフレームワークを提案する。
提案手法は,センサアクティベーションを物理フロアプラン上に提案し,軌跡認識画像のようなシーケンスを生成する。
時間的意識を高めるために,文脈的手がかりをエンコードする学習可能な時間埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2025-11-08T00:07:43Z) - Artificial Intelligence-Based Multiscale Temporal Modeling for Anomaly Detection in Cloud Services [10.421371572062595]
本研究では,マルチスケール特徴認識を統合したTransformerアーキテクチャに基づく異常検出手法を提案する。
提案手法は,精度,リコール,AUC,F1スコアなどの主要な指標において,主流のベースラインモデルより優れている。
論文 参考訳(メタデータ) (2025-08-20T07:52:36Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - SEPT: Towards Efficient Scene Representation Learning for Motion
Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。
実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-09-26T21:56:03Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。