論文の概要: Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2310.08826v1
- Date: Fri, 13 Oct 2023 02:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:45:14.478523
- Title: Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous
Driving
- Title(参考訳): 実世界の自動運転におけるマルチモーダル3次元意味セグメンテーションの再検討
- Authors: Feng Jiang, Chaoping Tu, Gang Zhang, Jun Li, Hanqing Huang, Junyu Lin,
Di Feng, Jian Pu
- Abstract要約: 既存のマルチモーダル手法では,1)効率的な展開とリアルタイム実行の難しさ,2)LiDARとカメラのキャリブレーションが弱い場合の劇的な性能劣化という2つの課題に直面している。
我々は,LiDARのみのCPGNetを拡張した新しいマルチモーダル融合フレームワークであるCPGNet-LCFを提案する。
- 参考スコア(独自算出の注目度): 16.402708657215804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LiDAR and camera are two critical sensors for multi-modal 3D semantic
segmentation and are supposed to be fused efficiently and robustly to promise
safety in various real-world scenarios. However, existing multi-modal methods
face two key challenges: 1) difficulty with efficient deployment and real-time
execution; and 2) drastic performance degradation under weak calibration
between LiDAR and cameras. To address these challenges, we propose CPGNet-LCF,
a new multi-modal fusion framework extending the LiDAR-only CPGNet. CPGNet-LCF
solves the first challenge by inheriting the easy deployment and real-time
capabilities of CPGNet. For the second challenge, we introduce a novel weak
calibration knowledge distillation strategy during training to improve the
robustness against the weak calibration. CPGNet-LCF achieves state-of-the-art
performance on the nuScenes and SemanticKITTI benchmarks. Remarkably, it can be
easily deployed to run in 20ms per frame on a single Tesla V100 GPU using
TensorRT TF16 mode. Furthermore, we benchmark performance over four weak
calibration levels, demonstrating the robustness of our proposed approach.
- Abstract(参考訳): lidarとカメラは、マルチモーダルな3dセマンティクスセグメンテーションのための2つの重要なセンサーであり、様々な現実世界のシナリオで安全性を約束するために効率的かつロバストに融合されるはずである。
しかし、既存のマルチモーダルメソッドには2つの大きな課題がある。
1)効率的なデプロイメントとリアルタイム実行の難しさ
2)LiDARとカメラの弱い校正下での劇的な性能劣化
これらの課題に対処するため,LiDAR専用CPGNetを拡張した新しいマルチモーダル融合フレームワークであるCPGNet-LCFを提案する。
CPGNet-LCFは、CPGNetのデプロイとリアルタイム機能を継承することで、最初の課題を解決する。
第2の課題として, 弱キャリブレーションに対するロバスト性を改善するために, 訓練中の弱キャリブレーション知識蒸留戦略を提案する。
CPGNet-LCFはnuScenesとSemanticKITTIベンチマークで最先端のパフォーマンスを達成する。
驚くべきことに、tensorrt tf16モードを使用して、単一のtesla v100 gpu上で1フレーム20msで簡単にデプロイできる。
さらに、4つの弱いキャリブレーションレベルに対するパフォーマンスのベンチマークを行い,提案手法の頑健性を示す。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文 参考訳(メタデータ) (2023-04-21T05:52:50Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。