論文の概要: EfficientPENet: Real-Time Depth Completion from Sparse LiDAR via Lightweight Multi-Modal Fusion
- arxiv url: http://arxiv.org/abs/2604.18790v1
- Date: Mon, 20 Apr 2026 19:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.463275
- Title: EfficientPENet: Real-Time Depth Completion from Sparse LiDAR via Lightweight Multi-Modal Fusion
- Title(参考訳): EfficientPENet:軽量多モード核融合によるスパースLiDARからのリアルタイム深度補完
- Authors: Johny J. Lopez, Md Meftahul Ferdaus, Mahdi Abdelguerfi, Anton Netchaev, Steven Sloan, Ken Pathak, Kendall N. Niles,
- Abstract要約: 既存の手法は、標準ベンチマークで高い精度を達成するが、組み込みハードウェアへのリアルタイムデプロイメントを妨げる重いバックボーンアーキテクチャに依存している。
本稿では,従来のResNetエンコーダを近代化したConvNeXtバックボーンに置き換えた2分岐深度補完ネットワークであるEfficientPENetを提案する。
KITTIの深さ補完ベンチマークでは、EfficientPENet は 36.24M パラメータを持つ 631.94 mm のRMSEと、48.76 FPS で動作する 20.51 ms のレイテンシを達成した。
- 参考スコア(独自算出の注目度): 1.9903316442426757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth completion from sparse LiDAR measurements and corresponding RGB images is a prerequisite for accurate 3D perception in robotic systems. Existing methods achieve high accuracy on standard benchmarks but rely on heavy backbone architectures that preclude real-time deployment on embedded hardware. We present EfficientPENet, a two-branch depth completion network that replaces the conventional ResNet encoder with a modernized ConvNeXt backbone, introduces sparsity-invariant convolutions for the depth stream, and refines predictions through a Convolutional Spatial Propagation Network (CSPN). The RGB branch leverages ImageNet-pretrained ConvNeXt blocks with Layer Normalization, 7x7 depthwise convolutions, and stochastic depth regularization. Features from both branches are merged via late fusion and decoded through a multi-scale deep supervision strategy. We further introduce a position-aware test-time augmentation scheme that corrects coordinate tensors during horizontal flipping, yielding consistent error reduction at inference. On the KITTI depth completion benchmark, EfficientPENet achieves an RMSE of 631.94 mm with 36.24M parameters and a latency of 20.51 ms, operating at 48.76 FPS. This represents a 3.7 times reduction in parameters and a 23 times speedup relative to BP-Net, while maintaining competitive accuracy. These results establish EfficientPENet as a practical solution for real-time depth completion on resource-constrained edge platforms such as the NVIDIA Jetson.
- Abstract(参考訳): 疎LiDAR測定とそれに対応するRGB画像の深さの完成は、ロボットシステムにおける正確な3D知覚の前提条件である。
既存の手法は、標準ベンチマークで高い精度を達成するが、組み込みハードウェアへのリアルタイムデプロイメントを妨げる重いバックボーンアーキテクチャに依存している。
本稿では,従来のResNetエンコーダを近代化したConvNeXtバックボーンに置き換えた2分岐深度補完ネットワークであるEfficientPENetを提案する。
RGBブランチは、ImageNetで事前訓練されたConvNeXtブロックをレイヤ正規化、7x7の奥行きの畳み込み、確率的な深さ正規化で活用する。
両方のブランチの機能は、後期融合によってマージされ、マルチスケールの深い監視戦略によってデコードされる。
さらに、水平反転中の座標テンソルを補正する位置認識テスト時間拡張方式を導入し、推論における一貫した誤差低減を実現する。
KITTIの深さ補完ベンチマークでは、EfficientPENet は 36.24M パラメータを持つ 631.94 mm のRMSEと、48.76 FPS で動作する 20.51 ms のレイテンシを達成した。
これはパラメータの3.7倍の減少とBP-Netに対する23倍のスピードアップであり、競争精度を維持している。
これらの結果は、NVIDIA Jetsonのようなリソース制約のあるエッジプラットフォーム上でのリアルタイム深度補完のための実用的なソリューションとして、EfficientPENetを確立している。
関連論文リスト
- Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching [2.226667542457085]
反復的改善を解析し,不均一な更新が空間的に疎外であり,時間的に冗長であることを明らかにする。
専用単分子エンコーダを必要とせず,奥行き先を暗黙的に埋め込む,協調的な単分子先行転送フレームワークを提案する。
第3に,構造化空間とI/O意識設計を利用したハードウェア対応RNN演算子であるFlashGRUを開発した。
論文 参考訳(メタデータ) (2026-02-24T02:51:37Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Gated Cross-Attention Network for Depth Completion [11.154059839763738]
色と深度の特徴の融合は、現在、深度推定の分野における重要な課題である。
我々は、ゲーティング機構を介して信頼性を伝播する効率的なGated Cross-Attention Networkを設計する。
我々は、AsyncHyperBandSchedulerスケジューラとHyperOptSearchアルゴリズムでRay Tuneメカニズムを使用して、モジュールイテレーションの最適な回数を自動的に検索する。
論文 参考訳(メタデータ) (2023-09-28T09:54:10Z) - Real-time Monocular Depth Estimation on Embedded Systems [32.40848141360501]
2つの効率的なRT-MonoDepthアーキテクチャとRT-MonoDepth-Sアーキテクチャを提案する。
RT-MonoDepthとRT-MonoDepth-SはNVIDIA Jetson Nanoで18.4&30.5 FPS、Jetson AGX Orinで253.0&364.1 FPSを達成した。
論文 参考訳(メタデータ) (2023-08-21T08:59:59Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。