論文の概要: HITNet: Hierarchical Iterative Tile Refinement Network for Real-time
Stereo Matching
- arxiv url: http://arxiv.org/abs/2007.12140v3
- Date: Thu, 8 Apr 2021 17:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:48:03.221162
- Title: HITNet: Hierarchical Iterative Tile Refinement Network for Real-time
Stereo Matching
- Title(参考訳): HITNet:リアルタイムステレオマッチングのための階層的反復タイルリファインメントネットワーク
- Authors: Vladimir Tankovich, Christian H\"ane, Yinda Zhang, Adarsh Kowdle, Sean
Fanello, Sofien Bouaziz
- Abstract要約: HITNetはリアルタイムステレオマッチングのための新しいニューラルネットワークアーキテクチャである。
私たちのアーキテクチャは本質的にマルチレゾリューションであり、異なるレベルにわたる情報の伝播を可能にします。
執筆時点では、HITNetは2つのビューステレオのためにETH3Dウェブサイトで公開されたすべてのメトリクスで1位から3位にランクインしている。
- 参考スコア(独自算出の注目度): 18.801346154045138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents HITNet, a novel neural network architecture for real-time
stereo matching. Contrary to many recent neural network approaches that operate
on a full cost volume and rely on 3D convolutions, our approach does not
explicitly build a volume and instead relies on a fast multi-resolution
initialization step, differentiable 2D geometric propagation and warping
mechanisms to infer disparity hypotheses. To achieve a high level of accuracy,
our network not only geometrically reasons about disparities but also infers
slanted plane hypotheses allowing to more accurately perform geometric warping
and upsampling operations. Our architecture is inherently multi-resolution
allowing the propagation of information across different levels. Multiple
experiments prove the effectiveness of the proposed approach at a fraction of
the computation required by state-of-the-art methods. At the time of writing,
HITNet ranks 1st-3rd on all the metrics published on the ETH3D website for two
view stereo, ranks 1st on most of the metrics among all the end-to-end learning
approaches on Middlebury-v3, ranks 1st on the popular KITTI 2012 and 2015
benchmarks among the published methods faster than 100ms.
- Abstract(参考訳): 本稿では,リアルタイムステレオマッチングのためのニューラルネットワークアーキテクチャであるHITNetを提案する。
フルコストのボリュームで動作し、3D畳み込みに依存する最近のニューラルネットワークアプローチとは対照的に、我々のアプローチはボリュームを明示的に構築するのではなく、高速なマルチレゾリューション初期化ステップ、微分可能な2D幾何伝播とワープ機構に依存している。
高い精度を実現するために,ネットワークは不一致を幾何学的に理由づけるだけでなく,傾斜平面仮説を推定し,幾何学的ワーピングやアップサンプリング操作をより正確に行うことができる。
私たちのアーキテクチャは本質的にマルチレゾリューションであり、異なるレベルにわたる情報の伝播を可能にします。
複数の実験により,最先端手法で要求される計算量のごく一部で提案手法の有効性が証明された。
この記事執筆時点では、HITNetはETH3DのWebサイトで公開された2つのビューステレオの指標で1位から3位、Middlebury-v3のエンドツーエンド学習アプローチでほとんどの指標で1位、KITTI 2012と2015のベンチマークで100ms以上で1位にランクインしている。
関連論文リスト
- SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Densely connected multidilated convolutional networks for dense
prediction tasks [25.75557472306157]
密結合多重化DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために単一の層に異なる拡張因子を持つ新しい多重化畳み込みを含む。
Cityscapes を用いた画像セマンティックセグメンテーションタスクと MUSDB18 を用いた音源分離タスクの実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-11-21T05:15:12Z) - SSP-Net: Scalable Sequential Pyramid Networks for Real-Time 3D Human
Pose Regression [27.85790535227085]
高速でスケーラブルな畳み込みニューラルネットワークを,静止RGB画像からのリアルタイムな3次元ポーズ回帰のために提案する。
我々のネットワークは1つのトレーニング手順を必要とし、最高の予測を毎秒120フレームで作成することができる。
論文 参考訳(メタデータ) (2020-09-04T03:43:24Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - MSMD-Net: Deep Stereo Matching with Multi-scale and Multi-dimension Cost
Volume [33.07553434167063]
マルチスケール・マルチ次元のコストボリュームを構築するためにMSMD-Netを提案する。
提案手法は, 領域横断の強い一般化を示し, 3倍あるいは5倍の高速さで, 最良先行作業よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-23T07:12:00Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。