論文の概要: MonSter: Marry Monodepth to Stereo Unleashes Power
- arxiv url: http://arxiv.org/abs/2501.08643v1
- Date: Wed, 15 Jan 2025 08:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:27.198706
- Title: MonSter: Marry Monodepth to Stereo Unleashes Power
- Title(参考訳): MonSter: モノデプスとステレオ、パワーを解き放つ
- Authors: Junda Cheng, Longliang Liu, Gangwei Xu, Xianqi Wang, Zhaoxing Zhang, Yong Deng, Jinliang Zang, Yurui Chen, Zhipeng Cai, Xin Yang,
- Abstract要約: 既存の手法は、限られたマッチング手段で不適切な領域を扱うのに苦労している。
MonSterは単分子深度とステレオマッチングをデュアルブランチアーキテクチャに統合する。
モンスターは5つの最もよく使われるリーダーボードの中で1位である。
- 参考スコア(独自算出の注目度): 13.904852634226273
- License:
- Abstract: Stereo matching recovers depth from image correspondences. Existing methods struggle to handle ill-posed regions with limited matching cues, such as occlusions and textureless areas. To address this, we propose MonSter, a novel method that leverages the complementary strengths of monocular depth estimation and stereo matching. MonSter integrates monocular depth and stereo matching into a dual-branch architecture to iteratively improve each other. Confidence-based guidance adaptively selects reliable stereo cues for monodepth scale-shift recovery. The refined monodepth is in turn guides stereo effectively at ill-posed regions. Such iterative mutual enhancement enables MonSter to evolve monodepth priors from coarse object-level structures to pixel-level geometry, fully unlocking the potential of stereo matching. As shown in Fig.1, MonSter ranks 1st across five most commonly used leaderboards -- SceneFlow, KITTI 2012, KITTI 2015, Middlebury, and ETH3D. Achieving up to 49.5% improvements (Bad 1.0 on ETH3D) over the previous best method. Comprehensive analysis verifies the effectiveness of MonSter in ill-posed regions. In terms of zero-shot generalization, MonSter significantly and consistently outperforms state-of-the-art across the board. The code is publicly available at: https://github.com/Junda24/MonSter.
- Abstract(参考訳): ステレオマッチングは画像対応から深度を回復する。
既存の手法では、オクルージョンやテクスチャレス領域のような限られたマッチング手段で、不適切な領域を扱うのに苦労している。
そこで本研究では,モノクロ深度推定とステレオマッチングの相補的長所を利用したMonSterを提案する。
MonSterは単分子深度とステレオマッチングをデュアルブランチアーキテクチャに統合し、相互に反復的に改善する。
信頼に基づくガイダンスは、単一深さスケールシフト回復のための信頼性の高いステレオキューを適応的に選択する。
精製されたモノデプスは、不測の領域でステレオを効果的にガイドする。
このような反復的相互拡張により、MonSterはモノデプス先行を粗いオブジェクトレベルの構造からピクセルレベルの幾何学へと進化させ、ステレオマッチングの可能性を完全に解き放つことができる。
図1に示すように、MonSterはSceneFlow、KITTI 2012、KITTI 2015、Middlebury、ETH3Dの5つの一般的なリーダーボードの中で1位である。
以前のベストメソッドよりも最大49.5%の改善(ETH3DのBad 1.0)を達成した。
総合解析は、不適切な地域におけるMonSterの有効性を検証する。
ゼロショットの一般化に関しては、MonSterはボード全体の最先端を著しく上回り、一貫して上回っている。
コードは、https://github.com/Junda24/MonSter.comで公開されている。
関連論文リスト
- SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文 参考訳(メタデータ) (2023-09-26T17:59:57Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - 2T-UNET: A Two-Tower UNet with Depth Clues for Robust Stereo Depth
Estimation [0.2578242050187029]
本稿では, 単純な2-tower畳み込みニューラルネットワークを用いて, 明示的なステレオマッチングを回避し, 深度推定問題を再検討する。
提案アルゴリズムは2T-UNetと呼ばれる。
アーキテクチャは複雑な自然のシーンで驚くほどよく機能し、様々なリアルタイムアプリケーションにその有用性を強調します。
論文 参考訳(メタデータ) (2022-10-27T12:34:41Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - H-Net: Unsupervised Attention-based Stereo Depth Estimation Leveraging
Epipolar Geometry [4.968452390132676]
本稿では,教師なしステレオ深度推定のためのディープラーニングフレームワークであるH-Netを紹介する。
初めて、Siameseオートエンコーダアーキテクチャが深さ推定に使用されます。
本手法は,最先端の非監視ステレオ深度推定法を上回っている。
論文 参考訳(メタデータ) (2021-04-22T19:16:35Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Increased-Range Unsupervised Monocular Depth Estimation [8.105699831214608]
そこで本研究では,小規模・広範囲のベースラインの利点を統合することを提案する。
3つの水平方向のビューを用いてネットワークをトレーニングすることにより、近距離と遠距離の両方で正確な深度予測が得られる。
我々の戦略は、単一の画像から複数のベースライン深さを推定できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。