論文の概要: L2COcc: Lightweight Camera-Centric Semantic Scene Completion via Distillation of LiDAR Model
- arxiv url: http://arxiv.org/abs/2503.12369v1
- Date: Sun, 16 Mar 2025 06:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:10.985466
- Title: L2COcc: Lightweight Camera-Centric Semantic Scene Completion via Distillation of LiDAR Model
- Title(参考訳): L2COcc:LiDARモデルの蒸留による軽量カメラ中心のシーン補完
- Authors: Ruoyu Wang, Yukai Ma, Yi Yao, Sheng Tao, Haoang Li, Zongzhi Zhu, Yong Liu, Xingxing Zuo,
- Abstract要約: 本稿では,軽量カメラ中心のセマンティックシーンコンプリートフレームワークであるL2COccを提案する。
精度を保ちながら計算負担を大幅に削減する。
- 参考スコア(独自算出の注目度): 16.187337394023555
- License:
- Abstract: Semantic Scene Completion (SSC) constitutes a pivotal element in autonomous driving perception systems, tasked with inferring the 3D semantic occupancy of a scene from sensory data. To improve accuracy, prior research has implemented various computationally demanding and memory-intensive 3D operations, imposing significant computational requirements on the platform during training and testing. This paper proposes L2COcc, a lightweight camera-centric SSC framework that also accommodates LiDAR inputs. With our proposed efficient voxel transformer (EVT) and cross-modal knowledge modules, including feature similarity distillation (FSD), TPV distillation (TPVD) and prediction alignment distillation (PAD), our method substantially reduce computational burden while maintaining high accuracy. The experimental evaluations demonstrate that our proposed method surpasses the current state-of-the-art vision-based SSC methods regarding accuracy on both the SemanticKITTI and SSCBench-KITTI-360 benchmarks, respectively. Additionally, our method is more lightweight, exhibiting a reduction in both memory consumption and inference time by over 23% compared to the current state-of-the-arts method. Code is available at our project page:https://studyingfufu.github.io/L2COcc/.
- Abstract(参考訳): セマンティックシーン補完(Semantic Scene Completion, SSC)は、知覚データからシーンの3Dセマンティック占有度を推定する自律運転認識システムにおいて重要な要素である。
精度を向上させるために、先行研究は様々な計算要求とメモリ集約的な3D操作を実装し、トレーニングとテスト中にプラットフォームに重要な計算要求を課している。
本稿では、LiDAR入力にも対応する軽量カメラ中心SSCフレームワークL2COccを提案する。
提案手法は, 特徴類似度蒸留(FSD), TPV蒸留(TPVD), 予測アライメント蒸留(PAD)を含む, 効率的なボクセルトランスフォーマー (EVT) およびクロスモーダル知識モジュールを用いて, 高い精度を維持しながら計算負担を大幅に軽減する。
実験により,提案手法は,SemanticKITTIとSSCBench-KITTI-360の両ベンチマークの精度に関して,現在最先端のビジョンベースSSC法よりも優れていることが示された。
さらに,本手法はより軽量で,現在の最先端手法と比較してメモリ消費と推論時間を23%以上削減できる。
コードは当社のプロジェクトページで公開されている。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Enhancing CTC-Based Visual Speech Recognition [11.269066294359144]
LiteVSR2は、以前導入した視覚音声認識に対する効率的なアプローチの拡張版である。
本稿では, 安定ビデオ前処理技術と蒸留プロセスにおける特徴正規化の2つの重要な改良点を紹介する。
LiteVSR2は前者の効率を維持しながら精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-11T12:02:42Z) - LiCROcc: Teach Radar for Accurate Semantic Occupancy Prediction using LiDAR and Camera [22.974481709303927]
3Dレーダーは、自動運転アプリケーションにおけるLiDARを徐々に置き換えている。
我々は,点雲と画像の融合フレームワークを実現するために,BEVに3段階の密接な融合手法を提案する。
提案手法はレーダー専用(R-LiCROcc)とレーダーカメラ(RC-LiCROcc)の両方での性能を向上させる。
論文 参考訳(メタデータ) (2024-07-23T05:53:05Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV
Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。
我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文 参考訳(メタデータ) (2023-06-01T05:06:56Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。