論文の概要: SurfSLAM: Sim-to-Real Underwater Stereo Reconstruction For Real-Time SLAM
- arxiv url: http://arxiv.org/abs/2601.10814v2
- Date: Tue, 20 Jan 2026 22:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.802283
- Title: SurfSLAM: Sim-to-Real Underwater Stereo Reconstruction For Real-Time SLAM
- Title(参考訳): SurfSLAM:リアルタイムSLAMのための水中ステレオ再構築
- Authors: Onur Bagoren, Seth Isaacson, Sacchin Sundar, Yung-Ching Sun, Anja Sheppard, Haoyu Ma, Abrar Shariff, Ram Vasudevan, Katherine A. Skinner,
- Abstract要約: 水中環境では、画像は光の減衰、視覚的アーティファクト、動的照明条件によって劣化する。
その結果、空気中のデータに基づいてトレーニングされたステレオ推定ネットワークは、水中ドメインに直接転送することはできない。
シミュレーションデータを用いた水中ステレオ異方性推定ネットワークのシミュレートと実時間トレーニングを可能にする新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.714335268428595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Localization and mapping are core perceptual capabilities for underwater robots. Stereo cameras provide a low-cost means of directly estimating metric depth to support these tasks. However, despite recent advances in stereo depth estimation on land, computing depth from image pairs in underwater scenes remains challenging. In underwater environments, images are degraded by light attenuation, visual artifacts, and dynamic lighting conditions. Furthermore, real-world underwater scenes frequently lack rich texture useful for stereo depth estimation and 3D reconstruction. As a result, stereo estimation networks trained on in-air data cannot transfer directly to the underwater domain. In addition, there is a lack of real-world underwater stereo datasets for supervised training of neural networks. Poor underwater depth estimation is compounded in stereo-based Simultaneous Localization and Mapping (SLAM) algorithms, making it a fundamental challenge for underwater robot perception. To address these challenges, we propose a novel framework that enables sim-to-real training of underwater stereo disparity estimation networks using simulated data and self-supervised finetuning. We leverage our learned depth predictions to develop SurfSLAM, a novel framework for real-time underwater SLAM that fuses stereo cameras with IMU, barometric, and Doppler Velocity Log (DVL) measurements. Lastly, we collect a challenging real-world dataset of shipwreck surveys using an underwater robot. Our dataset features over 24,000 stereo pairs, along with high-quality, dense photogrammetry models and reference trajectories for evaluation. Through extensive experiments, we demonstrate the advantages of the proposed training approach on real-world data for improving stereo estimation in the underwater domain and for enabling accurate trajectory estimation and 3D reconstruction of complex shipwreck sites.
- Abstract(参考訳): ローカライゼーションとマッピングは水中ロボットにとって中核的な知覚能力である。
ステレオカメラは、これらのタスクをサポートするためにメートル法深度を直接推定する低コストの手段を提供する。
しかし,近年の陸地における立体深度推定の進歩にもかかわらず,水中における画像対の計算深度は依然として困難である。
水中環境では、画像は光の減衰、視覚的アーティファクト、動的照明条件によって劣化する。
さらに、現実世界の水中シーンは、立体深度推定や3次元再構成に有用な豊かなテクスチャを欠いていることが多い。
その結果、空気中のデータに基づいてトレーニングされたステレオ推定ネットワークは、水中ドメインに直接転送することはできない。
さらに、ニューラルネットワークの教師ありトレーニングのための現実世界の水中ステレオデータセットが欠如している。
不適切な水中深度推定は、ステレオベース同時局在マッピング(SLAM)アルゴリズムで合成されるため、水中ロボットの知覚には根本的な課題となる。
これらの課題に対処するために,シミュレーションデータと自己教師型微調整を用いた水中ステレオ異方性推定ネットワークのシミュレートと実時間トレーニングを可能にする新しいフレームワークを提案する。
学習した深度予測を利用してSurfSLAMを開発した。これはリアルタイム水中SLAMのための新しいフレームワークで、ステレオカメラをIMU、バロメトリ、ドップラー速度ログ(DVL)測定で融合する。
最後に、水中ロボットを用いて、海難調査の挑戦的な実世界のデータセットを収集します。
我々のデータセットには24,000以上のステレオペアと、高品質で高密度なフォトグラムモデルと、評価のための基準軌跡が含まれています。
大規模な実験を通じて,水中領域におけるステレオ推定の改善と,複雑な難破現場の正確な軌道推定と3次元再構築を可能にするために,実世界のデータに対するトレーニング手法の利点を実証した。
関連論文リスト
- VISO: Robust Underwater Visual-Inertial-Sonar SLAM with Photometric Rendering for Dense 3D Reconstruction [2.095709224275874]
VISOは、ステレオカメラと慣性測定ユニット(IMU)と3Dソナーを融合させる堅牢な水中SLAMシステムである。
我々は,VISOが現在最先端の水中および視覚に基づくSLAMアルゴリズムを,ローカライゼーションの堅牢性と精度の観点から上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-03T10:18:09Z) - NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding [60.76337064425815]
本研究では,水中の自動探査を目的とした水中シーン理解手法について検討する。
NautDataは、8つの水中シーン理解タスクをサポートする1.45Mイメージテキストペアを含むデータセットである。
本稿では,透明な水中情報を明示的に復元するVFEモジュールを提案する。
論文 参考訳(メタデータ) (2025-10-31T14:00:35Z) - DUViN: Diffusion-Based Underwater Visual Navigation via Knowledge-Transferred Depth Features [47.88998580611257]
本研究では,知識伝達深度特性を用いた拡散型水中ビジュアルナビゲーションポリシーDUViNを提案する。
DuViNは、事前に構築された地図に頼ることなく、障害物を回避し、地形に対して安全かつ認識の高い高度を維持するよう車両を誘導する。
シミュレーションおよび実世界の水中環境における実験は、我々のアプローチの有効性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-03T03:43:12Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - Towards Training-Free Underwater 3D Object Detection from Sonar Point Clouds: A Comparison of Traditional and Deep Learning Approaches [0.0]
我々は,マルチビームエコー・サンダーポイント雲における人工構造物のトレーニング不要検出のための2つのパラダイムを開発し,比較する。
我々の2つのアプローチは、最先端のニューラルネットワークのための合成トレーニングデータを生成する物理ベースのソナーシミュレーションパイプラインと、堅牢なモデルベースのテンプレートマッチングシステムを組み合わせたものです。
本研究は,水中ドメインにおけるデータハングリー深層学習に関する従来の知恵に挑戦し,非トレーニング型水中3D検出のための最初の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-22T12:08:21Z) - Plenodium: UnderWater 3D Scene Reconstruction with Plenoptic Medium Representation [31.47797579690604]
Plenodiumは、オブジェクトと参加メディアの両方を共同でモデリングできる3D表現フレームワークである。
ビュー依存モデリングにのみ依存する既存の媒体表現とは対照的に,本手法では指向性情報と位置情報の両方を包含する。
実世界の水中データセットを用いた実験により,本手法は3次元再構成において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-27T14:37:58Z) - FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。
我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。
本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-25T03:54:01Z) - Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion [30.122666238416716]
正確な地球深度データを用いて水中画像を生成する新しいパイプラインを提案する。
このアプローチは、水中深度推定のための教師付きモデルのトレーニングを容易にする。
我々は、特別に作成された水中、深度、テキストデータ三重項に基づいて訓練された独自のDepth2Underwater ControlNetを導入する。
論文 参考訳(メタデータ) (2023-12-19T08:56:33Z) - FLSea: Underwater Visual-Inertial and Stereo-Vision Forward-Looking
Datasets [8.830479021890575]
我々は,地中海と紅海の前方視像と視界慣性画像集合を収集した。
これらのデータセットは、障害物回避、視覚計測、3Dトラッキング、3Dローカライゼーションとマッピング(SLAM)、深さ推定など、いくつかの水中アプリケーションの開発に欠かせない。
論文 参考訳(メタデータ) (2023-02-24T17:39:53Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Self-Supervised Depth Completion for Active Stereo [55.79929735390945]
アクティブステレオシステムは、低コストで高品質な深度マップのため、ロボット産業で広く利用されている。
これらの深度センサーはステレオアーチファクトに悩まされており、密度の深い深度推定を提供していない。
本稿では, 高精度な深度マップを推定するアクティブステレオシステムのための, 自己監督型深度補完法を提案する。
論文 参考訳(メタデータ) (2021-10-07T07:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。