論文の概要: Deep Learning Aided Vision System for Planetary Rovers
- arxiv url: http://arxiv.org/abs/2603.26802v1
- Date: Thu, 26 Mar 2026 07:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.628574
- Title: Deep Learning Aided Vision System for Planetary Rovers
- Title(参考訳): 惑星探査機の深層学習支援ビジョンシステム
- Authors: Lomash Relia, Jai G Singla, Amitabh, Nitant Dube,
- Abstract要約: 本研究では、リアルタイム認識とオフライン地形再構成を組み合わせた惑星探査機の視覚システムを提案する。
リアルタイムモジュールは、CLAHE強化ステレオ画像、YOLOv11nに基づくオブジェクト検出、および物体距離を推定するニューラルネットワークを統合する。
このアーキテクチャは、自律的な惑星探査のためのスケーラブルで計算効率の良いビジョンソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.2333246928962179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a vision system for planetary rovers, combining real-time perception with offline terrain reconstruction. The real-time module integrates CLAHE enhanced stereo imagery, YOLOv11n based object detection, and a neural network to estimate object distances. The offline module uses the Depth Anything V2 metric monocular depth estimation model to generate depth maps from captured images, which are fused into dense point clouds using Open3D. Real world distance estimates from the real time pipeline provide reliable metric context alongside the qualitative reconstructions. Evaluation on Chandrayaan 3 NavCam stereo imagery, benchmarked against a CAHV based utility, shows that the neural network achieves a median depth error of 2.26 cm within a 1 to 10 meter range. The object detection model maintains a balanced precision recall tradeoff on grayscale lunar scenes. This architecture offers a scalable, compute-efficient vision solution for autonomous planetary exploration.
- Abstract(参考訳): 本研究では、リアルタイム認識とオフライン地形再構成を組み合わせた惑星探査機の視覚システムを提案する。
リアルタイムモジュールは、CLAHE強化ステレオ画像、YOLOv11nに基づくオブジェクト検出、および物体距離を推定するニューラルネットワークを統合する。
オフラインモジュールは、Depth Anything V2メトリック単眼深度推定モデルを使用して、キャプチャされた画像から深度マップを生成し、Open3Dを使って高密度の点雲に融合する。
実時間パイプラインからの実世界距離推定は質的再構成とともに信頼性の高い計量コンテキストを提供する。
CAHVベースのユーティリティに対してベンチマークされたChandrayaan 3 NavCamステレオ画像の評価は、ニューラルネットワークが1から10mの範囲で2.26cmの中央値の深さ誤差を達成していることを示している。
オブジェクト検出モデルは、グレースケールの月面上での高精度リコールトレードオフをバランスよく維持する。
このアーキテクチャは、自律的な惑星探査のためのスケーラブルで計算効率の良いビジョンソリューションを提供する。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - DeepPoint: A Deep Learning Model for 3D Reconstruction in Point Clouds
via mmWave Radar [10.119506666546663]
本稿では,3次元オブジェクトをポイントクラウド形式で生成するディープラーニングモデルであるDeepPointを紹介する。
3DRIMRのStage 1で生成されたオブジェクトの2D深度画像を入力として、オブジェクトの滑らかで密度の高い3D点雲を出力する。
実験により,本モデルが元の3DRIMRや他の標準技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-19T18:28:20Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Mesh Reconstruction from Aerial Images for Outdoor Terrain Mapping Using
Joint 2D-3D Learning [12.741811850885309]
本稿では,無人航空機から得られた頭上画像を用いて,屋外地形のマッピングを行う。
飛行中の航空画像からの深度推定は困難です。
各カメラの局所メッシュを再構成する2d-3d学習手法を共同開発し,地球環境モデルとして構築する。
論文 参考訳(メタデータ) (2021-01-06T02:09:03Z) - Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation
Estimation [0.0]
本稿では,単眼カメラで撮影した2次元画像から3次元物体検出モデルを構築し,推定した鳥眼視高度マップと物体特徴の深部表現を組み合わせることを目的とする。
提案したモデルには、バックエンドネットワークとして事前トレーニングされたResNet-50ネットワークと、さらに3つのブランチがある。
論文 参考訳(メタデータ) (2020-11-24T18:01:57Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。