論文の概要: SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching
- arxiv url: http://arxiv.org/abs/2105.11587v1
- Date: Tue, 25 May 2021 00:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 05:38:13.914192
- Title: SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching
- Title(参考訳): SRH-Net: ステレオマッチングのためのスタック型再帰時間ガラスネットワーク
- Authors: Hongzhi Du, Yanyan Li, Yanbiao Sun, Jigui Zhu and Federico Tombari
- Abstract要約: 本研究では,3次元畳み込みフィルタで用いる4次元立方体体積を相違点方向の逐次コストマップに分解する。
新たなリカレントモジュールであるスタックド・リカレント・ホアーグラス(SRH)が,各コストマップの処理のために提案されている。
提案アーキテクチャはエンドツーエンドのパイプラインで実装され、パブリックデータセットで評価される。
- 参考スコア(独自算出の注目度): 33.66537830990198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cost aggregation strategy shows a crucial role in learning-based stereo
matching tasks, where 3D convolutional filters obtain state of the art but
require intensive computation resources, while 2D operations need less GPU
memory but are sensitive to domain shift. In this paper, we decouple the 4D
cubic cost volume used by 3D convolutional filters into sequential cost maps
along the direction of disparity instead of dealing with it at once by
exploiting a recurrent cost aggregation strategy. Furthermore, a novel
recurrent module, Stacked Recurrent Hourglass (SRH), is proposed to process
each cost map. Our hourglass network is constructed based on Gated Recurrent
Units (GRUs) and down/upsampling layers, which provides GRUs larger receptive
fields. Then two hourglass networks are stacked together, while multi-scale
information is processed by skip connections to enhance the performance of the
pipeline in textureless areas. The proposed architecture is implemented in an
end-to-end pipeline and evaluated on public datasets, which reduces GPU memory
consumption by up to 56.1\% compared with PSMNet using stacked hourglass 3D
CNNs without the degradation of accuracy. Then, we further demonstrate the
scalability of the proposed method on several high-resolution pairs, while
previously learned approaches often fail due to the memory constraint. The code
is released at \url{https://github.com/hongzhidu/SRHNet}.
- Abstract(参考訳): コスト集約戦略は、学習ベースのステレオマッチングタスクにおいて重要な役割を担っている。そこでは、3D畳み込みフィルタが技術の状態を取得するが、集中的な計算資源を必要とする。
本稿では, 3次元畳み込みフィルタが使用する4次元立方体体積を, 繰り返しコスト集約戦略を利用して, 同時に扱うのではなく, 相違方向に沿って逐次コストマップに分解する。
さらに,各コストマップを処理するために,新しい再帰モジュール stacked recurrent hourglass (srh) を提案する。
我々の時間ガラスネットワークは、GRU(Gated Recurrent Units)とダウン/アップサンプリング層に基づいて構築されている。
次に、2つの時間ガラスネットワークを積層し、マルチスケール情報をスキップ接続により処理し、無テクスチャ領域におけるパイプラインの性能を向上させる。
提案アーキテクチャは、エンドツーエンドパイプラインで実装され、パブリックデータセット上で評価され、精度の低下を伴わずにスタックされた砂時計3d cnnを使用したpsmnetと比較して、gpuメモリ消費量が最大56.1\%削減される。
さらに,複数の高分解能ペアに対して提案手法のスケーラビリティを実証する一方,以前に学習した手法はメモリ制約のために失敗することが多い。
コードは \url{https://github.com/hongzhidu/srhnet} でリリースされる。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Spatial Pruned Sparse Convolution for Efficient 3D Object Detection [41.62839541489369]
3Dシーンは多数のバックグラウンドポイントによって支配されており、主に前景オブジェクトにフォーカスする必要がある検出タスクには冗長である。
本稿では,既存の3D CNNの主要なコンポーネントを分析し,データの冗長性を無視し,さらにダウンサンプリングプロセスでそれを増幅することにより,余分な計算オーバーヘッドと不要な計算オーバーヘッドを発生させる。
SPS-ConvとSPSS-ConvとSPRSの2つの変種を含む新しい畳み込み演算子を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:19:06Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - Invertible Residual Network with Regularization for Effective Medical
Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。
可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。
この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文 参考訳(メタデータ) (2021-03-16T13:19:59Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z) - RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference [24.351577383531616]
RNNPoolは、リカレントニューラルネットワーク(RNN)に基づく新しいプール演算子である。
RNNPoolレイヤは、画像分類や顔検出といった標準的な視覚タスクに適用した場合、MobileNetsやDenseNetのようなさまざまなアーキテクチャの複数のブロックを効果的に置き換えることができる。
我々は、RNNPoolを標準のS3FDアーキテクチャで使用し、256KB未満のRAMを持つARM Cortex-M4クラスマイクロコントローラの最先端MAPを実現する。
論文 参考訳(メタデータ) (2020-02-27T05:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。