論文の概要: MSMD-Net: Deep Stereo Matching with Multi-scale and Multi-dimension Cost
Volume
- arxiv url: http://arxiv.org/abs/2006.12797v2
- Date: Fri, 25 Sep 2020 11:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:20:47.867256
- Title: MSMD-Net: Deep Stereo Matching with Multi-scale and Multi-dimension Cost
Volume
- Title(参考訳): msmd-net: マルチスケールおよびマルチディメンションコストボリュームによるディープステレオマッチング
- Authors: Zhelun Shen, Yuchao Dai, Zhibo Rao
- Abstract要約: マルチスケール・マルチ次元のコストボリュームを構築するためにMSMD-Netを提案する。
提案手法は, 領域横断の強い一般化を示し, 3倍あるいは5倍の高速さで, 最良先行作業よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 33.07553434167063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep end-to-end learning based stereo matching methods have achieved great
success as witnessed by the leaderboards across different benchmarking datasets
(KITTI, Middlebury, ETH3D, etc). However, real scenarios not only require
approaches to have state-of-the-art performance but also real-time speed and
domain-across generalization, which cannot be satisfied by existing methods. In
this paper, we propose MSMD-Net (Multi-Scale and Multi-Dimension) to construct
multi-scale and multi-dimension cost volume. At the multi-scale level, we
generate four 4D combination volumes at different scales and integrate them
with an encoder-decoder process to predict an initial disparity estimation. At
the multi-dimension level, we additionally construct a 3D warped correlation
volume and use it to refine the initial disparity map with residual learning.
These two dimensional cost volumes are complementary to each other and can
boost the performance of disparity estimation. Additionally, we propose a
switch training strategy to alleviate the overfitting issue appeared in the
pre-training process and further improve the generalization ability and
accuracy of final disparity estimation. Our proposed method was evaluated on
several benchmark datasets and ranked first on KITTI 2012 leaderboard and
second on KITTI 2015 leaderboard as of September 9. In addition, our method
shows strong domain-across generalization and outperforms best prior work by a
noteworthy margin with three or even five times faster speed. The code of
MSMD-Net is available at https://github.com/gallenszl/MSMD-Net.
- Abstract(参考訳): ディープラーニングベースのステレオマッチング手法は、さまざまなベンチマークデータセット(KITTI、Middlebury、ETH3Dなど)にわたるリーダーボードで見られるように、大きな成功を収めている。
しかし、実際のシナリオでは最先端のパフォーマンスを実現するためのアプローチが必要となるだけでなく、既存の方法では満足できないリアルタイムの速度とドメイン横断の一般化も必要となる。
本稿では,MSMD-Net(Multi-Scale and Multi-Dimension)を提案する。
マルチスケールレベルで、異なるスケールで4つの4D組み合わせボリュームを生成し、エンコーダデコーダプロセスと統合して初期差分推定を行う。
マルチディメンションレベルでは、さらに3次元ゆがんだ相関ボリュームを構築し、それを用いて残差学習による初期格差マップを洗練する。
これらの2次元コストボリュームは互いに相補的であり、異質性推定の性能を高めることができる。
さらに,事前学習過程に現れる過剰適合問題を緩和し,最終不一致推定の一般化能力と精度をさらに向上させるスイッチトレーニング戦略を提案する。
提案手法は,いくつかのベンチマークデータセットで評価され,kitti 2012 leaderboardで第1位,kitti 2015 leaderboardで第2位となった。
さらに,提案手法は強いドメイン横断一般化を示し,3倍から5倍の速さで先行作業の最高性能を上回っている。
MSMD-Netのコードはhttps://github.com/gallenszl/MSMD-Netで公開されている。
関連論文リスト
- MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding [64.65145700121442]
MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-28T18:44:15Z) - FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration [89.4165092674947]
マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T12:50:15Z) - 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition [31.992543274210835]
我々は、ASRタスクのさらなる改善を実現するために、いくつかのアプローチを特定し、統合する。
特に、マルチロスは共同CTC/AED損失を指し、マルチパスはMixture-of-Experts(MoE)アーキテクチャを表す。
WenetSpeechデータセットを用いて提案手法の評価を行い,提案手法がCERの相対的改善を12.2%-17.6%に与えることを示す。
論文 参考訳(メタデータ) (2022-04-07T03:10:49Z) - Curvature-guided dynamic scale networks for Multi-view Stereo [10.667165962654996]
本稿では,重み計算を伴わずにマッチングコストの性能を向上させるために,ロバストな特徴抽出ネットワークを学習することに焦点を当てる。
動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。
複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。
論文 参考訳(メタデータ) (2021-12-11T14:41:05Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - 3D Point Cloud Registration with Multi-Scale Architecture and
Self-supervised Fine-tuning [5.629161809575013]
MS-SVConvは、2つのシーン間の3D登録のためにポイントクラウドから機能を出力する高速マルチスケールディープニューラルネットワークです。
競合的かつよく知られた3DMatchベンチマークでは,最先端の手法と比較して,大幅な改善が見られた。
我々は,未知のデータセットを自己管理的に微調整し,ETHおよびTUMデータセットの最先端結果をもたらす戦略を提案する。
論文 参考訳(メタデータ) (2021-03-26T15:38:33Z) - Full Matching on Low Resolution for Disparity Estimation [84.45201205560431]
本研究では,マルチステージ完全一致格差推定法(MFM)を提案する。
また,低分解能3次元コストを見積もる代わりに,低分解能4次元ボリュームから全類似度スコアを段階的に切り離すことを実証した。
実験の結果,提案手法は,シーンフローやkitti 2012,kitti 2015のデータセットにおいて,より正確な不一致推定結果を達成し,最先端の手法を上回った。
論文 参考訳(メタデータ) (2020-12-10T11:11:23Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - HITNet: Hierarchical Iterative Tile Refinement Network for Real-time
Stereo Matching [18.801346154045138]
HITNetはリアルタイムステレオマッチングのための新しいニューラルネットワークアーキテクチャである。
私たちのアーキテクチャは本質的にマルチレゾリューションであり、異なるレベルにわたる情報の伝播を可能にします。
執筆時点では、HITNetは2つのビューステレオのためにETH3Dウェブサイトで公開されたすべてのメトリクスで1位から3位にランクインしている。
論文 参考訳(メタデータ) (2020-07-23T17:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。