論文の概要: StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
- arxiv url: http://arxiv.org/abs/2509.16415v1
- Date: Fri, 19 Sep 2025 20:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.77975
- Title: StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
- Title(参考訳): ステレオアダプタ:ステレオ深度推定を水中環境に適用する
- Authors: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang,
- Abstract要約: 水中ステレオ深度推定は、ナビゲーション、検査、マッピングといったロボティクスのタスクに正確な3D幾何学を提供する。
既存のアプローチは、2つの重要な課題に直面している: (i) 大きな視覚基盤エンコーダを広範囲のラベル付きデータなしで水中ドメインに適応させ、 (ii) グローバルコヒーレントだがスケールアンビグラスなモノクル先行を局所的にメートル法で表されるが、フォトメトリック的に壊れやすいステレオ通信で密に融合する。
本稿では,LoRA適応単分子ファンデーションエンコーダと繰り返しステレオリファインメントモジュールを統合したパラメータ効率の高い自己教師型フレームワークであるStereoAdapterを提案する。
- 参考スコア(独自算出の注目度): 14.61785829674974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
- Abstract(参考訳): 水中ステレオ深度推定は、ナビゲーション、検査、マッピングなどのロボティクスのタスクに正確な3D幾何学を提供し、低コストの受動カメラからのメートル法深度を提供しながら、モノラルな方法のスケールの曖昧さを回避している。
しかし、既存のアプローチは2つの重要な課題に直面している。
一 広範囲のラベル付きデータのない水中領域に大型視覚基盤エンコーダを適応させるパラメータ効率
(II) グローバルコヒーレントだがスケールアンビグラスな単分子前駆体を局所的に計量するが、光度的に脆弱なステレオ対応と密に融合する。
これらの課題に対処するため,パラメータ効率のよい自己教師型フレームワークであるStereoAdapterを提案する。
さらに,合成UW-StereoDepth-40Kデータセット上での効率的なランク選択と事前学習のための動的LoRA適応を導入し,水中の多様な条件下での堅牢性を高める。
シミュレーションと実世界のベンチマークの総合評価では、最先端の手法と比較して、TartanAirでは6.11%、SQUIDでは5.12%の改善が見られた。
コード:https://github.com/AIGeeksGroup/StereoAdapter。
Webサイト: https://aigeeksgroup.github.io/StereoAdapter
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - DEFOM-Stereo: Depth Foundation Model Based Stereo Matching [12.22373236061929]
DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
SOTA法と比較してより強いゼロショットの一般化があることが確認された。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
論文 参考訳(メタデータ) (2025-01-16T10:59:29Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。