論文の概要: FSF-Net: Enhance 4D Occupancy Forecasting with Coarse BEV Scene Flow for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.15841v1
- Date: Tue, 24 Sep 2024 08:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:31:23.270206
- Title: FSF-Net: Enhance 4D Occupancy Forecasting with Coarse BEV Scene Flow for Autonomous Driving
- Title(参考訳): FSF-Net: 自律運転のための粗いBEVシーンフローによる4D作業予測の強化
- Authors: Erxin Guo, Pei An, You Yang, Qiong Liu, An-An Liu,
- Abstract要約: 粗いBEVシーンフローに基づく4次元占有予測手法FSF-Netを提案する。
IoUとmIoUの9.56%と10.87%を達成した。
- 参考スコア(独自算出の注目度): 31.908105891397096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D occupancy forecasting is one of the important techniques for autonomous driving, which can avoid potential risk in the complex traffic scenes. Scene flow is a crucial element to describe 4D occupancy map tendency. However, an accurate scene flow is difficult to predict in the real scene. In this paper, we find that BEV scene flow can approximately represent 3D scene flow in most traffic scenes. And coarse BEV scene flow is easy to generate. Under this thought, we propose 4D occupancy forecasting method FSF-Net based on coarse BEV scene flow. At first, we develop a general occupancy forecasting architecture based on coarse BEV scene flow. Then, to further enhance 4D occupancy feature representation ability, we propose a vector quantized based Mamba (VQ-Mamba) network to mine spatial-temporal structural scene feature. After that, to effectively fuse coarse occupancy maps forecasted from BEV scene flow and latent features, we design a U-Net based quality fusion (UQF) network to generate the fine-grained forecasting result. Extensive experiments are conducted on public Occ3D dataset. FSF-Net has achieved IoU and mIoU 9.56% and 10.87% higher than state-of-the-art method. Hence, we believe that proposed FSF-Net benefits to the safety of autonomous driving.
- Abstract(参考訳): 4D占有率予測は、複雑な交通シーンの潜在的なリスクを回避できる自動運転の重要な手法の1つである。
シーンフローは4D占有率マップの傾向を説明する上で重要な要素である。
しかし,実際のシーンでは正確なシーンフローの予測は困難である。
本稿では,ほとんどの交通シーンにおいて,BEVシーンフローはおよそ3次元シーンフローを表すことができることを示す。
そして、粗いBEVシーンフローを生成するのが簡単です。
そこで本研究では,粗いBEVシーンフローに基づくFSF-Netの4次元占有率予測手法を提案する。
まず、粗いBEVシーンフローに基づく一般的な占有率予測アーキテクチャを開発する。
そこで本研究では,空間的・時間的構造的特徴を抽出するベクトル量子化ベースのMamba(VQ-Mamba)ネットワークを提案する。
その後、BEVシーンフローと潜伏特徴から予測される粗い占有率マップを効果的に融合するために、U-Netベースの品質融合(UQF)ネットワークを設計し、詳細な予測結果を生成する。
大規模な実験は、Occ3Dデータセット上で行われる。
FSF-NetはIoUとmIoUの9.56%と10.87%を達成している。
したがって、FSF-Netの提案は自動運転の安全性に有益であると信じている。
関連論文リスト
- An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention [4.9349065371630045]
本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
論文 参考訳(メタデータ) (2024-09-26T12:37:22Z) - OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks [75.10231099007494]
本稿では,Bird's-Eye-View(BEV)セグメンテーションネットワークのための,OccFeatと呼ばれる自己教師付き事前学習手法を提案する。
OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。
本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
論文 参考訳(メタデータ) (2024-04-22T09:43:03Z) - Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in
Autonomous Driving Applications [21.346206141059156]
Cam4DOccは、カメラのみの4D占有率予測のための新しいベンチマークで、近い将来、周囲の変化を評価する。
私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、複数の公開データセットに基づいて、ベンチマークを構築しています。
このベンチマークを総合的な比較による将来の研究のために確立するために、様々なカメラベースの認識と予測の実装から4つのベースラインタイプを導入する。
論文 参考訳(メタデータ) (2023-11-29T14:25:46Z) - A Novel Deep Neural Network for Trajectory Prediction in Automated
Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。
精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文 参考訳(メタデータ) (2023-09-19T22:14:52Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文 参考訳(メタデータ) (2023-04-21T03:17:04Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Self-Supervised Scene Flow Estimation with 4D Automotive Radar [7.3287286038702035]
4Dレーダーからのシーンフローを推定する方法はほとんど分かっていない。
LiDARの点雲と比較すると、レーダーデータは大幅に小さく、ノイズが高く、解像度もはるかに低い。
本研究の目的は,4次元レーダポイント雲からのシーンフローを,自己教師付き学習を利用して推定することである。
論文 参考訳(メタデータ) (2022-03-02T14:28:12Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。