論文の概要: LMDepth: Lightweight Mamba-based Monocular Depth Estimation for Real-World Deployment
- arxiv url: http://arxiv.org/abs/2505.00980v1
- Date: Fri, 02 May 2025 04:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.895925
- Title: LMDepth: Lightweight Mamba-based Monocular Depth Estimation for Real-World Deployment
- Title(参考訳): LMDepth:軽量マンバを用いた実世界展開のための単眼深度推定
- Authors: Jiahuan Long, Xin Zhou,
- Abstract要約: LMDepthは、高精度深度情報を再構成するために設計された軽量な単分子深度推定ネットワークである。
LMDepthはより少ないパラメータと少ない計算量で高い性能を実現する。
LMDepthはさらに、INT8量子化による組み込みプラットフォームに展開し、実世界のエッジアプリケーションにおける実用性を検証する。
- 参考スコア(独自算出の注目度): 3.8883236454187347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation provides an additional depth dimension to RGB images, making it widely applicable in various fields such as virtual reality, autonomous driving and robotic navigation. However, existing depth estimation algorithms often struggle to effectively balance performance and computational efficiency, which poses challenges for deployment on resource-constrained devices. To address this, we propose LMDepth, a lightweight Mamba-based monocular depth estimation network, designed to reconstruct high-precision depth information while maintaining low computational overhead. Specifically, we propose a modified pyramid spatial pooling module that serves as a multi-scale feature aggregator and context extractor, ensuring global spatial information for accurate depth estimation. Moreover, we integrate multiple depth Mamba blocks into the decoder. Designed with linear computations, the Mamba Blocks enable LMDepth to efficiently decode depth information from global features, providing a lightweight alternative to Transformer-based architectures that depend on complex attention mechanisms. Extensive experiments on the NYUDv2 and KITTI datasets demonstrate the effectiveness of our proposed LMDepth. Compared to previous lightweight depth estimation methods, LMDepth achieves higher performance with fewer parameters and lower computational complexity (measured by GFLOPs). We further deploy LMDepth on an embedded platform with INT8 quantization, validating its practicality for real-world edge applications.
- Abstract(参考訳): 単眼深度推定は、RGB画像に付加的な深度次元を提供し、仮想現実、自律運転、ロボットナビゲーションなどの様々な分野に広く適用することができる。
しかし、既存の深度推定アルゴリズムは、性能と計算効率のバランスを効果的に保ち、リソース制約のあるデバイスに展開する上での課題となることが多い。
計算オーバーヘッドを低く抑えながら高精度な深度情報を再構成する軽量なマンバ型単分子深度推定ネットワーク LMDepth を提案する。
具体的には,多機能アグリゲータおよびコンテキスト抽出器として機能し,高精度な深度推定のための大域空間情報を確保するピラミッド空間プーリングモジュールを提案する。
さらに,複数の深度Mambaブロックをデコーダに統合する。
線形計算で設計されたMamba Blocksは、LMDepthがグローバル機能から深度情報を効率的にデコードし、複雑な注意機構に依存するTransformerベースのアーキテクチャに代わる軽量な代替手段を提供する。
提案したLMDepthの有効性を,NYUDv2およびKITTIデータセットの大規模実験により実証した。
従来の軽量深度推定法と比較して、LMDepthはより少ないパラメータと低い計算複雑性(GFLOPによって測定される)で高い性能を達成する。
LMDepthはさらに、INT8量子化による組み込みプラットフォームに展開し、実世界のエッジアプリケーションにおける実用性を検証する。
関連論文リスト
- QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation [108.04354143020886]
本稿では、深度基礎モデルにプロンプトを導入し、Prompt Depth Anythingと呼ばれる計量深度推定のための新しいパラダイムを作成する。
低コストのLiDARを用いて、Depth Anythingモデルによる正確なメートル法深度出力を導出し、最大4K解像度を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:32:12Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Depth Completion with Multiple Balanced Bases and Confidence for Dense Monocular SLAM [33.66705447919248]
本稿では,軽量深度補完網をスパースSLAMシステムに統合する新しい手法を提案する。
具体的には,BBC-Netと呼ばれる,高度に最適化されたマルチバス深度補完ネットワークを提案する。
BBC-Netは、オフザシェルキーポイントベースのSLAMシステムによって生成されたスパースポイントを持つ単眼画像から、複数のバランスの取れたベースと信頼マップを予測できる。
論文 参考訳(メタデータ) (2023-09-08T06:15:27Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。