論文の概要: OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity
- arxiv url: http://arxiv.org/abs/2409.19987v1
- Date: Mon, 30 Sep 2024 06:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:29.941930
- Title: OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity
- Title(参考訳): OccRWKV:線形複雑度を考慮した効率的な3次元セマンティック動作予測の再考
- Authors: Junming Wang, Wei Yin, Xiaoxiao Long, Xingyu Zhang, Zebin Xing, Xiaoyang Guo, Qian Zhang,
- Abstract要約: 3次元セマンティック占有予測ネットワークは,3次元シーンの幾何学的および意味的構造を再構築する際,顕著な能力を示した。
我々は、RWKV(Receptance Weighted Key Value)にインスパイアされた効率的なセマンティック占有ネットワークOccRWKVを紹介する。
OccRWKVはセマンティクス、占有予測、特徴融合を分離し、それぞれSem-RWKVとGeo-RWKVブロックを組み込む。
- 参考スコア(独自算出の注目度): 11.287721740276048
- License:
- Abstract: 3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency.In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird's-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: \url{https://jmwang0117.github.io/OccRWKV/}.
- Abstract(参考訳): 3Dセマンティック占有予測ネットワークは、3Dシーンの幾何学的・意味的構造を再構築し、ロボットナビゲーションや自律運転システムにとって重要な情報を提供する際、顕著な能力を示した。
しかし,高密度ネットワーク構造設計によるオーバヘッドが大きいため,既存のネットワークでは精度とレイテンシのバランスが困難である。この記事では,Receptance Weighted Key Value(RWKV)にヒントを得た,効率的なセマンティック占有ネットワークであるOccRWKVを紹介する。
OccRWKVはセマンティクス、占有予測、特徴融合を分離し、それぞれSem-RWKVとGeo-RWKVブロックを組み込む。
これらのブロックは、長い範囲の依存関係をキャプチャして、ドメイン固有の表現(セマンティクスや幾何学)を学習し、予測精度を高めるように設計されている。
実世界の3D占有のスパース性を生かして,鳥眼ビュー(BEV)空間に特徴を投影することで計算オーバーヘッドを低減し,効率的な特徴強調と融合のためのBEV-RWKVブロックを提案する。
これにより、パフォーマンスを損なうことなく22.2 FPSでのリアルタイム推論が可能になる。
OccRWKVはSemanticKITTIデータセットの最先端の手法よりも優れており、最高のベースラインであるCo-Occの20倍の速度で25.1mIoUを達成した。
コードとビデオはプロジェクトのページで公開されている。
関連論文リスト
- Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - EFFOcc: A Minimal Baseline for EFficient Fusion-based 3D Occupancy Network [14.798733498419935]
既存の3D占有ネットワーク(occnets)は、計算的に重く、ラベルの空白である。
本稿では,最先端の精度を達成しつつ,ネットワークの複雑さとラベル要件の最小化を目標とした,効率的な3d占有ネットワーク(EFFOcc)を提案する。
論文 参考訳(メタデータ) (2024-06-11T08:01:02Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy
Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。
カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文 参考訳(メタデータ) (2023-04-11T16:15:50Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。