論文の概要: ES-Net: An Efficient Stereo Matching Network
- arxiv url: http://arxiv.org/abs/2103.03922v1
- Date: Fri, 5 Mar 2021 20:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:43:49.324308
- Title: ES-Net: An Efficient Stereo Matching Network
- Title(参考訳): ES-Net: 効率的なステレオマッチングネットワーク
- Authors: Zhengyu Huang, Theodore B. Norris, Panqu Wang
- Abstract要約: 既存のステレオマッチングネットワークは通常、性能を改善するために遅くて計算コストのかかる3D畳み込みを使用する。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
- 参考スコア(独自算出の注目度): 4.8986598953553555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense stereo matching with deep neural networks is of great interest to the
research community. Existing stereo matching networks typically use slow and
computationally expensive 3D convolutions to improve the performance, which is
not friendly to real-world applications such as autonomous driving. In this
paper, we propose the Efficient Stereo Network (ESNet), which achieves high
performance and efficient inference at the same time. ESNet relies only on 2D
convolution and computes multi-scale cost volume efficiently using a
warping-based method to improve the performance in regions with fine-details.
In addition, we address the matching ambiguity issue in the occluded region by
proposing ESNet-M, a variant of ESNet that additionally estimates an occlusion
mask without supervision. We further improve the network performance by
proposing a new training scheme that includes dataset scheduling and
unsupervised pre-training. Compared with other low-cost dense stereo depth
estimation methods, our proposed approach achieves state-of-the-art performance
on the Scene Flow [1], DrivingStereo [2], and KITTI-2015 dataset [3]. Our code
will be made available.
- Abstract(参考訳): ディープニューラルネットワークとのディセンスステレオマッチングは、研究コミュニティにとって非常に興味深いものです。
既存のステレオマッチングネットワークは通常、低速で計算的に高価な3D畳み込みを使用してパフォーマンスを向上させます。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
ESNetは2次元畳み込みのみを頼りに、ワーピング方式で効率的にマルチスケールコストボリュームを算出し、細部の細かい領域での性能を向上させます。
さらに、ESNetの変種であるESNet-Mを監督なしで閉塞マスクを推定する提案を行い、閉塞領域の一致曖昧性問題に対処します。
データセットスケジューリングと教師なし事前トレーニングを含む新しいトレーニングスキームを提案し、ネットワークパフォーマンスをさらに向上させます。
提案手法は,他の低コスト高密度ステレオ深度推定法と比較して,Scene Flow [1], DrivingStereo [2], KITTI-2015 データセットの最先端性能を実現する。
コードが利用可能になります。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Bilateral Grid Learning for Stereo Matching Networks [22.92443311789097]
本稿では,学習したバイラテラルグリッドにおけるスライシング操作に基づくエッジ保存コストボリュームアップサンプリングモジュールを提案する。
スライス層はパラメータフリーで、高品質の高解像度のコストボリュームを得ることができます。
このモジュールをベースとしたリアルタイムネットワークを設計し、既存のリアルタイムなディープステレオマッチングネットワークより優れています。
論文 参考訳(メタデータ) (2021-01-01T09:08:01Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。