論文の概要: RTS-Mono: A Real-Time Self-Supervised Monocular Depth Estimation Method for Real-World Deployment
- arxiv url: http://arxiv.org/abs/2511.14107v1
- Date: Tue, 18 Nov 2025 03:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.916893
- Title: RTS-Mono: A Real-Time Self-Supervised Monocular Depth Estimation Method for Real-World Deployment
- Title(参考訳): RTS-Mono: リアルタイムの自己監視型モノクロ深度推定手法
- Authors: Zeyu Cheng, Tongfei Liu, Tao Lei, Xiang Hua, Yi Zhang, Chengkai Tang,
- Abstract要約: RTS-Monoは軽量で効率的なエンコーダデコーダアーキテクチャである。
最新技術(SoTA)のパフォーマンスを高解像度および低解像度で達成する。
Nvidia Jetson Orinで49 FPSの速度でリアルタイムの推論を行うことができる。
- 参考スコア(独自算出の注目度): 10.19871006168469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth information is crucial for autonomous driving and intelligent robot navigation. The simplicity and flexibility of self-supervised monocular depth estimation are conducive to its role in these fields. However, most existing monocular depth estimation models consume many computing resources. Although some methods have reduced the model's size and improved computing efficiency, the performance deteriorates, seriously hindering the real-world deployment of self-supervised monocular depth estimation models in the real world. To address this problem, we proposed a real-time self-supervised monocular depth estimation method and implemented it in the real world. It is called RTS-Mono, which is a lightweight and efficient encoder-decoder architecture. The encoder is based on Lite-Encoder, and the decoder is designed with a multi-scale sparse fusion framework to minimize redundancy, ensure performance, and improve inference speed. RTS-Mono achieved state-of-the-art (SoTA) performance in high and low resolutions with extremely low parameter counts (3 M) in experiments based on the KITTI dataset. Compared with lightweight methods, RTS-Mono improved Abs Rel and Sq Rel by 5.6% and 9.8% at low resolution and improved Sq Rel and RMSE by 6.1% and 1.9% at high resolution. In real-world deployment experiments, RTS-Mono has extremely high accuracy and can perform real-time inference on Nvidia Jetson Orin at a speed of 49 FPS. Source code is available at https://github.com/ZYCheng777/RTS-Mono.
- Abstract(参考訳): 深度情報は、自律運転とインテリジェントなロボットナビゲーションに不可欠である。
自己教師付き単分子深度推定の単純さと柔軟性は、これらの分野におけるその役割に寄与する。
しかし、既存の多くの単分子深度推定モデルは多くの計算資源を消費する。
モデルのサイズを減らし、計算効率を向上する手法もあるが、性能は悪化し、現実の世界における自己監督された単眼深度推定モデルの実際の展開を著しく妨げている。
この問題に対処するため,我々はリアルタイムの自己教師型単分子深度推定法を提案し,実世界で実装した。
RTS-Monoは軽量で効率的なエンコーダ・デコーダアーキテクチャである。
エンコーダはLite-Encoderをベースにしており、デコーダはマルチスケールのスパース融合フレームワークで設計されており、冗長性を最小化し、性能を保証し、推論速度を向上させる。
RTS-Monoは、KITTIデータセットに基づく実験で、非常に低いパラメータ数(3M)の高解像度および低解像度で、SoTA(State-of-the-art)性能を達成した。
軽量な方法と比較して、RTS-MonoはAbs RelとSq Relを5.6%、低解像度で9.8%改善し、Sq RelとRMSEを6.1%、高解像度で1.9%改善した。
実世界の展開実験では、RTS-Monoは非常に高精度で、Nvidia Jetson Orin上で49 FPSの速度でリアルタイムの推論を行うことができる。
ソースコードはhttps://github.com/ZYCheng777/RTS-Monoで入手できる。
関連論文リスト
- ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - LMDepth: Lightweight Mamba-based Monocular Depth Estimation for Real-World Deployment [3.8883236454187347]
LMDepthは、高精度深度情報を再構成するために設計された軽量な単分子深度推定ネットワークである。
LMDepthはより少ないパラメータと少ない計算量で高い性能を実現する。
LMDepthはさらに、INT8量子化による組み込みプラットフォームに展開し、実世界のエッジアプリケーションにおける実用性を検証する。
論文 参考訳(メタデータ) (2025-05-02T04:00:03Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Real-time Monocular Depth Estimation on Embedded Systems [32.40848141360501]
2つの効率的なRT-MonoDepthアーキテクチャとRT-MonoDepth-Sアーキテクチャを提案する。
RT-MonoDepthとRT-MonoDepth-SはNVIDIA Jetson Nanoで18.4&30.5 FPS、Jetson AGX Orinで253.0&364.1 FPSを達成した。
論文 参考訳(メタデータ) (2023-08-21T08:59:59Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。