論文の概要: OnlineBEV: Recurrent Temporal Fusion in Bird's Eye View Representations for Multi-Camera 3D Perception
- arxiv url: http://arxiv.org/abs/2507.08644v1
- Date: Fri, 11 Jul 2025 14:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.39109
- Title: OnlineBEV: Recurrent Temporal Fusion in Bird's Eye View Representations for Multi-Camera 3D Perception
- Title(参考訳): OnlineBEV:マルチカメラ3D知覚のための鳥眼視表示における反復的時間融合
- Authors: Junho Koh, Youngwoo Lee, Jungho Kim, Dongyoung Lee, Jun Won Choi,
- Abstract要約: ビュービュー・ツー・BEV変換により得られた鳥眼ビュー(BEV)特徴を用いて,多視点カメラによる3D知覚を行うことができる。
OnlineBEVは、リカレント構造を使用して、時間とともにBEV機能を結合する。
OnlineBEVは、nuScenesテストセットで63.9%のNDSを達成し、カメラのみの3Dオブジェクト検出タスクで最先端のパフォーマンスを記録する。
- 参考スコア(独自算出の注目度): 13.143625047012604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view camera-based 3D perception can be conducted using bird's eye view (BEV) features obtained through perspective view-to-BEV transformations. Several studies have shown that the performance of these 3D perception methods can be further enhanced by combining sequential BEV features obtained from multiple camera frames. However, even after compensating for the ego-motion of an autonomous agent, the performance gain from temporal aggregation is limited when combining a large number of image frames. This limitation arises due to dynamic changes in BEV features over time caused by object motion. In this paper, we introduce a novel temporal 3D perception method called OnlineBEV, which combines BEV features over time using a recurrent structure. This structure increases the effective number of combined features with minimal memory usage. However, it is critical to spatially align the features over time to maintain strong performance. OnlineBEV employs the Motion-guided BEV Fusion Network (MBFNet) to achieve temporal feature alignment. MBFNet extracts motion features from consecutive BEV frames and dynamically aligns historical BEV features with current ones using these motion features. To enforce temporal feature alignment explicitly, we use Temporal Consistency Learning Loss, which captures discrepancies between historical and target BEV features. Experiments conducted on the nuScenes benchmark demonstrate that OnlineBEV achieves significant performance gains over the current best method, SOLOFusion. OnlineBEV achieves 63.9% NDS on the nuScenes test set, recording state-of-the-art performance in the camera-only 3D object detection task.
- Abstract(参考訳): ビュービュー・ツー・BEV変換により得られた鳥眼ビュー(BEV)特徴を用いて,多視点カメラによる3D知覚を行うことができる。
いくつかの研究では、複数のカメラフレームから得られた連続的なBEV特徴を組み合わせることで、これらの3次元認識手法の性能をさらに向上することができることが示されている。
しかし、自律エージェントの自我運動を補償した後でも、多数の画像フレームを組み合わせる際に、時間的アグリゲーションによるパフォーマンスゲインが制限される。
この制限は、物体の動きによって引き起こされる時間の経過とともに、BEVの特徴が動的に変化することに起因する。
本稿では,時間とともにBEVの特徴を組み合わさったオンラインBEVという新しい時間的3次元認識手法を提案する。
この構造は、メモリ使用量を最小限に抑えて、効果的な組み合わせ機能の数を増やします。
しかし、強い性能を維持するために、時間とともに機能を空間的に整列させることは重要である。
OnlineBEVは、時間的特徴アライメントを達成するために、Motion-guided BEV Fusion Network (MBFNet)を使用している。
MBFNetは連続したBEVフレームから動作特徴を抽出し、過去のBEV機能と現在の動作特徴を動的に整列する。
時間的特徴アライメントを明示的に実施するために、時間的一貫性学習損失を用いる。
nuScenesベンチマークで実施された実験は、OnlineBEVが現在のベストメソッドであるSOLOFusionよりも大きなパフォーマンス向上を達成したことを示している。
OnlineBEVは、nuScenesテストセットで63.9%のNDSを達成し、カメラのみの3Dオブジェクト検出タスクで最先端のパフォーマンスを記録する。
関連論文リスト
- MamBEV: Enabling State Space Models to Learn Birds-Eye-View Representations [6.688344169640982]
我々は,Bird's Eye Viewの統一表現を学習するMamBEVというMambaベースのフレームワークを提案する。
MamBEVは、計算とメモリ効率を大幅に改善した複数の3D知覚タスクをサポートする。
MamBEVの有望なパフォーマンスを様々な視覚的知覚メトリクスで実証する実験である。
論文 参考訳(メタデータ) (2025-03-18T03:18:45Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving [11.507979392707448]
我々は、UniSceneと呼ばれる、最初のマルチカメラ統合事前学習フレームワークを提案する。
我々は3次元シーンの一般的な表現としてOccupancyを使用し、そのモデルが周囲の世界の幾何学的先行を把握できるようにする。
UniSceneは、マルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。
論文 参考訳(メタデータ) (2023-05-30T08:23:06Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.926593676054424]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。