Fugu-MT 論文翻訳(概要): M2H-MX: Multi-Task Dense Visual Perception for Real-Time Monocular Spatial Understanding

論文の概要: M2H-MX: Multi-Task Dense Visual Perception for Real-Time Monocular Spatial Understanding

arxiv url: http://arxiv.org/abs/2603.29236v1
Date: Tue, 31 Mar 2026 04:07:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.137482
Title: M2H-MX: Multi-Task Dense Visual Perception for Real-Time Monocular Spatial Understanding
Title（参考訳）: M2H-MX:リアルタイム単眼空間理解のための多視点視覚知覚
Authors: U. V. B. L. Udugama, George Vosselman, Francesco Nex,
Abstract要約: M2H-MXは単眼空間理解のためのリアルタイムマルチタスク知覚モデルである。その出力は、修正されていない単分子SLAMパイプラインに直接統合される。 NYUDv2では、M2H-MX-Lが最先端の結果を達成し、セマンティックmIoUを6.6%改善した。 ScanNet上のリアルタイム単分子マッピングシステムにデプロイすると、M2H-MXは平均軌道誤差を60.7%削減する。
参考スコア（独自算出の注目度）: 4.329662126907974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular cameras are attractive for robotic perception due to their low cost and ease of deployment, yet achieving reliable real-time spatial understanding from a single image stream remains challenging. While recent multi-task dense prediction models have improved per-pixel depth and semantic estimation, translating these advances into stable monocular mapping systems is still non-trivial. This paper presents M2H-MX, a real-time multi-task perception model for monocular spatial understanding. The model preserves multi-scale feature representations while introducing register-gated global context and controlled cross-task interaction in a lightweight decoder, enabling depth and semantic predictions to reinforce each other under strict latency constraints. Its outputs integrate directly into an unmodified monocular SLAM pipeline through a compact perception-to-mapping interface. We evaluate both dense prediction accuracy and in-the-loop system performance. On NYUDv2, M2H-MX-L achieves state-of-the-art results, improving semantic mIoU by 6.6% and reducing depth RMSE by 9.4% over representative multi-task baselines. When deployed in a real-time monocular mapping system on ScanNet, M2H-MX reduces average trajectory error by 60.7% compared to a strong monocular SLAM baseline while producing cleaner metric-semantic maps. These results demonstrate that modern multi-task dense prediction can be reliably deployed for real-time monocular spatial perception in robotic systems.
Abstract（参考訳）: 単眼カメラは、低コストで展開が容易なため、ロボットの知覚に魅力的であるが、単一の画像ストリームから信頼性の高いリアルタイム空間理解を実現することは依然として困難である。最近のマルチタスク密度予測モデルは画素ごとの深度と意味的推定を改善しているが、これらの進歩を安定な単分子マッピングシステムに変換することは依然として簡単ではない。本稿では,モノクロ空間理解のためのリアルタイムマルチタスク認識モデルであるM2H-MXを提案する。このモデルは、レジスタゲートのグローバルコンテキストと制御されたクロスタスクインタラクションを軽量デコーダに導入しながら、マルチスケールの特徴表現を保存し、深度とセマンティックな予測を厳密なレイテンシ制約の下で強化できるようにする。その出力は、コンパクトな知覚対マッピングインタフェースを通じて、修正されていない単分子SLAMパイプラインに直接統合される。重み付き予測精度とループ内システム性能を評価した。 NYUDv2では、M2H-MX-Lが最先端の結果を達成し、セマンティックmIoUを6.6%改善し、代表的マルチタスクベースラインよりも深いRMSEを9.4%削減した。 ScanNet上のリアルタイムモノクラーマッピングシステムにデプロイすると、M2H-MXはよりクリーンなメトリック・セマンティックマップを作成しながら、強いモノクラーSLAMベースラインと比較して平均軌道誤差を60.7%削減する。これらの結果から,現代のマルチタスク密度予測はロボットシステムにおけるリアルタイム単眼空間認識に確実に適用可能であることが示唆された。

関連論文リスト

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-23T17:59:42Z)
Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera [54.967647497048205]
本稿では,距離精度と形状を考慮した3次元動作を推定するリアルタイムモーションキャプチャシステムであるStereo-Inertial Poserを提案する。モノクラーRGBをステレオビジョンに置き換え、直接3次元キーポイント抽出と形状パラメータ推定を可能にした。ドリフトフリーなグローバル翻訳を長い記録時間で生成し,フットスケート効果を低減させる。
論文参考訳（メタデータ） (2026-03-02T17:46:38Z)
Semantics and Content Matter: Towards Multi-Prior Hierarchical Mamba for Image Deraining [95.00432497331583]
画像デライニングのためのマルチPrior Hierarchical Mamba (MPHM) ネットワーク MPHMは、タスクレベルのセマンティックガイダンスのためのマクロセマンティックテキスト先行(CLIP)と、シーン認識構造情報のためのマイクロ構造視覚先行(DINOv2)を統合している。実験ではMPHMの最先端のパフォーマンスを実証し、Rain200Hデータセットで0.57dBのPSNRゲインを達成した。
論文参考訳（メタデータ） (2025-11-17T08:08:59Z)
M2S2L: Mamba-based Multi-Scale Spatial-temporal Learning for Video Anomaly Detection [18.108479842983822]
ビデオ異常検出(VAD)は,映像監視に期待する画像処理コミュニティにおいて重要な課題である。従来のVADアプローチは、現代の監視システムに対して堅牢な評価を提供するのに苦労している。本稿では,マンバをベースとしたマルチスケール空間時間学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-04T04:00:23Z)
M2H: Multi-Task Learning with Efficient Window-Based Cross-Task Attention for Monocular Spatial Perception [4.329662126907974]
M2H(Multi-Mono-Hydra)は、単一の単分子画像から意味的セグメンテーションと深度、エッジ、表面正規度を推定するための新しいマルチタスク学習フレームワークである。軽量なViTベースのDINOv2バックボーン上に構築されたM2Hは、リアルタイムデプロイメントに最適化されている。
論文参考訳（メタデータ） (2025-10-20T10:03:31Z)
Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving [23.83773255227831]
DejaVuは車載ネットワークを利用して、センサストリーム間の遅延を誘導し、微妙な時間的ミスアライメントを生成する攻撃である。包括的攻撃分析により,センサのタスク特異的な不均衡感が明らかになった。シングルフレームのLiDAR遅延では、攻撃者は車検出のmAPを最大88.5%削減し、3フレームのカメラ遅延、車滴の多重物体追跡精度(MOTA)を73%削減できる。
論文参考訳（メタデータ） (2025-07-12T00:44:26Z)
MAGiC-SLAM: Multi-Agent Gaussian Globally Consistent SLAM [23.318966306555915]
同時ローカライゼーションとマッピング(SLAM)システムは、拡張現実、ロボティクス、自律運転など、コンピュータビジョンで広く使われている。近年の研究では、分散ニューラルシーン表現を用いてこの問題に対処している。本稿では,厳格に変形可能な3次元ガウス型シーン表現を提案する。合成および実世界のデータセット上でMAGiC-SLAMを評価し,その精度と精度について検討した。
論文参考訳（メタデータ） (2024-11-25T08:34:01Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
An Online Semantic Mapping System for Extending and Enhancing Visual SLAM [2.538209532048867]
本稿では,2次元から3次元の物体検出パイプラインと,生成されたランドマークの高速なデータアソシエーションを用いた,移動型視覚システムのためのリアルタイムセマンティックマッピング手法を提案する。我々のシステムは,65msの平均反復時間でリアルタイムに到達し,公開データセット上での最先端SLAMのポーズ推定を最大68%向上させることができる。
論文参考訳（メタデータ） (2022-03-08T09:14:37Z)
Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文参考訳（メタデータ） (2021-05-05T17:49:55Z)
A Generative Learning Approach for Spatio-temporal Modeling in Connected Vehicular Network [55.852401381113786]
本稿では,コネクテッドカーの無線アクセス遅延を実現するための総合的時間品質フレームワークであるLaMI(Latency Model Inpainting)を提案する。 LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。特に、パッチ方式のアプローチを用いて各地域で収集されたサンプル間の空間的相関を初めて発見し、その後、原点および高度に相関したサンプルをバラエナオートコーダ(VAE)に供給する。
論文参考訳（メタデータ） (2020-03-16T03:43:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。