論文の概要: AANet: Adaptive Aggregation Network for Efficient Stereo Matching
- arxiv url: http://arxiv.org/abs/2004.09548v1
- Date: Mon, 20 Apr 2020 18:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:55:24.657771
- Title: AANet: Adaptive Aggregation Network for Efficient Stereo Matching
- Title(参考訳): AANet: 効率的なステレオマッチングのための適応集約ネットワーク
- Authors: Haofei Xu, Juyong Zhang
- Abstract要約: 現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
- 参考スコア(独自算出の注目度): 33.39794232337985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress made by learning based stereo matching
algorithms, one key challenge remains unsolved. Current state-of-the-art stereo
models are mostly based on costly 3D convolutions, the cubic computational
complexity and high memory consumption make it quite expensive to deploy in
real-world applications. In this paper, we aim at completely replacing the
commonly used 3D convolutions to achieve fast inference speed while maintaining
comparable accuracy. To this end, we first propose a sparse points based
intra-scale cost aggregation method to alleviate the well-known edge-fattening
issue at disparity discontinuities. Further, we approximate traditional
cross-scale cost aggregation algorithm with neural network layers to handle
large textureless regions. Both modules are simple, lightweight, and
complementary, leading to an effective and efficient architecture for cost
aggregation. With these two modules, we can not only significantly speed up
existing top-performing models (e.g., $41\times$ than GC-Net, $4\times$ than
PSMNet and $38\times$ than GA-Net), but also improve the performance of fast
stereo models (e.g., StereoNet). We also achieve competitive results on Scene
Flow and KITTI datasets while running at 62ms, demonstrating the versatility
and high efficiency of the proposed method. Our full framework is available at
https://github.com/haofeixu/aanet .
- Abstract(参考訳): 学習ベースのステレオマッチングアルゴリズムによる顕著な進歩にもかかわらず、重要な課題は未解決のままである。
現在の最先端のステレオモデルは、主に高価な3d畳み込み、キュービック計算の複雑さ、高メモリ消費により、現実世界のアプリケーションでデプロイするのに非常に費用がかかる。
本稿では,一般的な3Dコンボリューションを完全に置き換えて,高速な推論速度を実現することを目的としている。
そこで本研究では,まず,不連続なエッジフィッチング問題を軽減するため,スケール内コスト集約法を提案する。
さらに,従来のクロススケールコスト集約アルゴリズムをニューラルネットワーク層に近似して,大きなテクスチャレス領域を扱う。
どちらのモジュールもシンプルで軽量で補完的であり、コスト集約のための効果的で効率的なアーキテクチャとなる。
これら2つのモジュールによって、既存のトップパフォーマンスモデル(GC-Netより411\times$、PSMNetより4\times$、GA-Netより38\times$など)を大幅にスピードアップするだけでなく、高速ステレオモデル(StereoNetなど)のパフォーマンスも向上する。
また,62msで実行中のScene FlowとKITTIデータセットの競合性も達成し,提案手法の汎用性と高効率性を実証した。
私たちのフレームワークはhttps://github.com/haofeixu/aanetで利用可能です。
関連論文リスト
- LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation [27.00836175513738]
LightStereoは、マッチングプロセスを加速するために作られた最先端のステレオマッチングネットワークである。
私たちのブレークスルーは、3Dコストボリュームのチャネル次元に特化してパフォーマンスを向上させることです。
LightStereoは、SceneFlowデータセットで競合するEPEメトリックを達成し、最低でも22GFLOPと17msのランタイムを必要とする。
論文 参考訳(メタデータ) (2024-06-28T11:11:24Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Multi-scale Iterative Residuals for Fast and Scalable Stereo Matching [13.76996108304056]
本稿では,このギャップを埋めるために,反復的マルチスケール粗粒微細化(iCFR)フレームワークを提案する。
マルチスケールのワープ機能を用いて,差分残差を推定し,コスト容積の差分探索範囲を最小限まで押し上げる。
最後に,マルチスケールアプローチに固有の精度の喪失を回復するために,改良ネットワークを適用した。
論文 参考訳(メタデータ) (2021-10-25T09:54:17Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - ES-Net: An Efficient Stereo Matching Network [4.8986598953553555]
既存のステレオマッチングネットワークは通常、性能を改善するために遅くて計算コストのかかる3D畳み込みを使用する。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:11:39Z) - Multi-Scale Cost Volumes Cascade Network for Stereo Matching [9.440848600106797]
従来手法とCNNを組み合わせたMSCVNetを提案する。
提案手法の有効性を実証し,精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-02-03T08:40:17Z) - Bilateral Grid Learning for Stereo Matching Networks [22.92443311789097]
本稿では,学習したバイラテラルグリッドにおけるスライシング操作に基づくエッジ保存コストボリュームアップサンプリングモジュールを提案する。
スライス層はパラメータフリーで、高品質の高解像度のコストボリュームを得ることができます。
このモジュールをベースとしたリアルタイムネットワークを設計し、既存のリアルタイムなディープステレオマッチングネットワークより優れています。
論文 参考訳(メタデータ) (2021-01-01T09:08:01Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。