論文の概要: AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory
- arxiv url: http://arxiv.org/abs/2603.10438v1
- Date: Wed, 11 Mar 2026 05:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.794015
- Title: AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory
- Title(参考訳): AsyncMDE:非同期空間記憶によるリアルタイム単眼深度推定
- Authors: Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu,
- Abstract要約: AsyncMDEは、ファンデーションモデルの計算コストを時間とともに補正する非同期深度認識システムである。
屋内の静的、動的、合成的な極端運動ベンチマークにまたがって検証される。
AsyncMDEはリフレッシュの間を優雅に分解し、Jetson AGX Orin withRTで161FPSを達成する。
- 参考スコア(独自算出の注目度): 5.4678854145519855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation-model-based monocular depth estimation offers a viable alternative to active sensors for robot perception, yet its computational cost often prohibits deployment on edge platforms. Existing methods perform independent per-frame inference, wasting the substantial computational redundancy between adjacent viewpoints in continuous robot operation. This paper presents AsyncMDE, an asynchronous depth perception system consisting of a foundation model and a lightweight model that amortizes the foundation model's computational cost over time. The foundation model produces high-quality spatial features in the background, while the lightweight model runs asynchronously in the foreground, fusing cached memory with current observations through complementary fusion, outputting depth estimates, and autoregressively updating the memory. This enables cross-frame feature reuse with bounded accuracy degradation. At a mere 3.83M parameters, it operates at 237 FPS on an RTX 4090, recovering 77% of the accuracy gap to the foundation model while achieving a 25X parameter reduction. Validated across indoor static, dynamic, and synthetic extreme-motion benchmarks, AsyncMDE degrades gracefully between refreshes and achieves 161FPS on a Jetson AGX Orin with TensorRT, clearly demonstrating its feasibility for real-time edge deployment.
- Abstract(参考訳): ファンデーションモデルに基づく単眼深度推定は、ロボット知覚のためのアクティブセンサーに代わる実行可能な代替手段を提供するが、その計算コストは、しばしばエッジプラットフォームへの展開を禁止している。
既存の手法はフレーム単位の独立推論を行い、連続ロボット操作において、隣接する視点間のかなりの計算冗長性を浪費する。
本稿では,ファンデーションモデルと軽量モデルからなる非同期深度認識システムであるAsyncMDEについて述べる。
基礎モデルはバックグラウンドで高品質な空間特性を生成し、軽量モデルはフォアグラウンドで非同期に動作し、キャッシュされたメモリを相補的融合によって現在の観測と融合させ、深さ推定を出力し、メモリを自動回帰的に更新する。
これにより、境界精度の低下を伴うクロスフレーム機能の再利用が可能になる。
わずか3.83MのパラメータでRTX 4090上で237 FPSで動作し、25Xパラメータ還元を達成しながら基礎モデルの精度ギャップの77%を回復する。
AsyncMDEは、屋内の静的、動的、合成的な極端運動ベンチマークで検証され、リフレッシュの間を優雅に分解し、TensorRTを備えたJetson AGX Orinで161FPSを達成する。
関連論文リスト
- Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation [4.54656749337919]
AsymFormerは、RGB-Dマルチモーダル情報を用いたリアルタイムセマンティックセグメンテーションの精度を向上させる新しいネットワークである。
AsymFormerはマルチモーダルな特徴抽出に非対称なバックボーンを使用し、冗長なパラメータを削減している。
AsymFormerは高い精度と効率のバランスを取ることができる。
論文 参考訳(メタデータ) (2023-09-25T11:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。