論文の概要: StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation
- arxiv url: http://arxiv.org/abs/2602.16915v1
- Date: Wed, 18 Feb 2026 22:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.422685
- Title: StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation
- Title(参考訳): StereoAdapter-2:地球構造に一貫性のある水中ステレオ深度推定
- Authors: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang,
- Abstract要約: 本稿では,従来のConvGRU更新器を新しいConvSS2D演算子に置き換えるStereoAdapter-2を提案する。
大規模合成水中ステレオデータセットUW-StereoDepth-80Kを構築した。
本フレームワークは,水中ベンチマークにおいて,最先端のゼロショット性能を実現する。
- 参考スコア(独自算出の注目度): 18.410248448681514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
- Abstract(参考訳): ステレオ深度推定は水中ロボットの知覚の基礎であるが、波長依存性の光減衰、散乱、屈折によって引き起こされる厳しい領域シフトに悩まされている。
近年のアプローチでは、GRUをベースとした反復的改良による水中適応の単分子基盤モデルが採用されているが、GRUのシーケンシャル・ゲーティングと局所的畳み込み核は、長距離異方性伝播のために複数の繰り返しを必要とするため、大きな異方性とテクスチュアレスな水中領域での性能が制限されている。
本稿では,従来のConvGRU更新器を選択状態空間モデルに基づく新しいConvSS2D演算子に置き換えるStereoAdapter-2を提案する。
提案手法では,垂直的な構造的整合性を捉えながら自然にエピポーラ幾何に整列する4方向走査法を用いて,線形計算複雑性において1回の更新ステップ内での空間伝搬を効率的に行う。
さらに,UW-StereoDepth-80Kという,多様なベースライン,減衰係数,散乱パラメータを特徴とする大規模合成水中ステレオデータセットを構築し,セマンティック・アウェア・スタイルのトランスファーとジオメトリ一貫性のある新規ビュー合成を組み合わせた2段階生成パイプラインを構築した。
StereoAdapter から受け継いだ動的 LoRA 適応と組み合わせることで,TartanAir-UW を17%,SQUID を7.2% 改良した水中ベンチマークで最先端のゼロショット性能を実現し,BlueROV2 プラットフォーム上での実環境検証を行った。
コード:https://github.com/AIGeeksGroup/StereoAdapter-2。
Webサイト: https://aigeeksgroup.github.io/StereoAdapter-2
関連論文リスト
- Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - Enhancing Underwater Light Field Images via Global Geometry-aware Diffusion Process [93.00033672476206]
GeoDiff-LFは、SD-Turbo上に構築された新しい拡散ベースのフレームワークで、水中4次元LFイメージングを強化する。
拡散先行とLF幾何を統合することにより、GeoDiff-LFは水中のシーンにおける色歪みを効果的に緩和する。
論文 参考訳(メタデータ) (2026-01-29T02:27:22Z) - Graph Embedding with Mel-spectrograms for Underwater Acoustic Target Recognition [3.4185611249587278]
UATR-GTransformerは、Transformerアーキテクチャとグラフニューラルネットワーク(GNN)を統合する非ユークリッドディープラーニングモデルである。
提案モデルでは, 海洋工学への応用の可能性を強調し, 周波数領域情報を効果的に抽出する。
UATR-GTransformerが最先端の手法と競合する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-12T13:25:54Z) - StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes [14.61785829674974]
水中ステレオ深度推定は、ナビゲーション、検査、マッピングといったロボティクスのタスクに正確な3D幾何学を提供する。
既存のアプローチは、2つの重要な課題に直面している: (i) 大きな視覚基盤エンコーダを広範囲のラベル付きデータなしで水中ドメインに適応させ、 (ii) グローバルコヒーレントだがスケールアンビグラスなモノクル先行を局所的にメートル法で表されるが、フォトメトリック的に壊れやすいステレオ通信で密に融合する。
本稿では,LoRA適応単分子ファンデーションエンコーダと繰り返しステレオリファインメントモジュールを統合したパラメータ効率の高い自己教師型フレームワークであるStereoAdapterを提案する。
論文 参考訳(メタデータ) (2025-09-19T20:57:03Z) - Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - Hierarchical Spherical CNNs with Lifting-based Adaptive Wavelets for
Pooling and Unpooling [101.72318949104627]
本稿では, 階層型畳み込みニューラルネットワーク(HS-CNN)の新たな枠組みを提案し, プールやアンプールのための適応球面ウェーブレットを学習する。
LiftHS-CNNは、画像レベルのタスクとピクセルレベルのタスクの両方において、より効率的な階層的特徴学習を実現する。
論文 参考訳(メタデータ) (2022-05-31T07:23:42Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。