論文の概要: Accurate and Efficient Stereo Matching via Attention Concatenation
Volume
- arxiv url: http://arxiv.org/abs/2209.12699v1
- Date: Fri, 23 Sep 2022 08:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:31:51.017332
- Title: Accurate and Efficient Stereo Matching via Attention Concatenation
Volume
- Title(参考訳): 注意結合ボリュームによる精度と効率のよいステレオマッチング
- Authors: Gangwei Xu, Yun Wang, Junda Cheng, Jinhui Tang, Xin Yang
- Abstract要約: 本稿では,注意結合ボリューム(ACV)という新しいコストボリューム構築手法を提案する。
ACVは相関手がかりから注目重みを生成し、余分な情報を抑制し、連結ボリュームにおけるマッチング関連情報を強化する。
ACVの高速バージョンであるFast-ACVを設計し、高い確率差の仮説を生成する。
- 参考スコア(独自算出の注目度): 49.3788819492248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching is a fundamental building block for many vision and robotics
applications. An informative and concise cost volume representation is vital
for stereo matching of high accuracy and efficiency. In this paper, we present
a novel cost volume construction method, named attention concatenation volume
(ACV), which generates attention weights from correlation clues to suppress
redundant information and enhance matching-related information in the
concatenation volume. The ACV can be seamlessly embedded into most stereo
matching networks, the resulting networks can use a more lightweight
aggregation network and meanwhile achieve higher accuracy. We further design a
fast version of ACV to enable real-time performance, named Fast-ACV, which
generates high likelihood disparity hypotheses and the corresponding attention
weights from low-resolution correlation clues to significantly reduce
computational and memory cost and meanwhile maintain a satisfactory accuracy.
The core idea of our Fast-ACV is volume attention propagation (VAP) which can
automatically select accurate correlation values from an upsampled correlation
volume and propagate these accurate values to the surroundings pixels with
ambiguous correlation clues. Furthermore, we design a highly accurate network
ACVNet and a real-time network Fast-ACVNet based on our ACV and Fast-ACV
respectively, which achieve the state-of-the-art performance on several
benchmarks (i.e., our ACVNet ranks the 2nd on KITTI 2015 and Scene Flow, and
the 3rd on KITTI 2012 and ETH3D among all the published methods; our
Fast-ACVNet outperforms almost all state-of-the-art real-time methods on Scene
Flow, KITTI 2012 and 2015 and meanwhile has better generalization ability)
- Abstract(参考訳): ステレオマッチングは多くのビジョンとロボティクスアプリケーションのための基本的なビルディングブロックである。
高い精度と効率のステレオマッチングには,情報的かつ簡潔なコストボリューム表現が不可欠である。
本稿では,相関手がかりから注意重みを発生させ,冗長な情報を抑圧し,連結量におけるマッチング関連情報を強化する新しいコストボリューム構築法である注意重み付け量(acv)を提案する。
ACVはほとんどのステレオマッチングネットワークにシームレスに埋め込み、その結果のネットワークはより軽量なアグリゲーションネットワークを使用し、高い精度を達成することができる。
ACVの高速バージョンであるFast-ACVを設計し、低分解能相関手がかりから高い確率差の仮説と対応する注意重みを生成し、計算とメモリのコストを大幅に削減し、良好な精度を維持する。
我々のFast-ACVのコアアイデアはボリュームアテンション伝搬(VAP)であり、アップサンプリングされた相関ボリュームから正確な相関値を自動で選択し、不明瞭な相関ヒントでそれらの正確な値を周辺ピクセルに伝搬する。
さらに,我々は,acv と fast-acv をベースとする高精度ネットワーク acvnet とリアルタイムネットワーク fast-acvnet をそれぞれ設計し,いくつかのベンチマークで最先端のパフォーマンスを実現している(すなわち,acvnet は kitti 2015 と scene flow で 2 位,kitti 2012 では 3 位,eth3d では 3 位,fast-acvnet では scene flow,kitti 2012 と 2015 で最先端のリアルタイムメソッドをほぼすべて上回っており,さらに一般化能力も向上している)。
関連論文リスト
- FasterViT: Fast Vision Transformers with Hierarchical Attention [63.50580266223651]
我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。
新たに導入した階層的注意(HAT)アプローチは,グローバルな自己意識を2次複雑性で分解し,計算コストを削減した多面的注意に分解する。
論文 参考訳(メタデータ) (2023-06-09T18:41:37Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo
Matching [7.39503547452922]
本稿では,余剰情報を抑制するために,相関情報から注意重みを生成する新しいコストボリューム構築手法を提案する。
信頼性の高い注意重みを生成するため,マッチングコストの特異性を改善するため,マルチレベル適応パッチマッチングを提案する。
提案するコスト容積は、ほとんどのステレオマッチングネットワークにシームレスに組み込むことのできる注意結合容積 (ACV) と命名される。
論文 参考訳(メタデータ) (2022-03-04T06:28:58Z) - Multi-scale Iterative Residuals for Fast and Scalable Stereo Matching [13.76996108304056]
本稿では,このギャップを埋めるために,反復的マルチスケール粗粒微細化(iCFR)フレームワークを提案する。
マルチスケールのワープ機能を用いて,差分残差を推定し,コスト容積の差分探索範囲を最小限まで押し上げる。
最後に,マルチスケールアプローチに固有の精度の喪失を回復するために,改良ネットワークを適用した。
論文 参考訳(メタデータ) (2021-10-25T09:54:17Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - SCV-Stereo: Learning Stereo Matching from a Sparse Cost Volume [14.801038005597855]
畳み込みニューラルネットワーク(CNN)に基づくステレオマッチングアプローチは、一般に、不均一性推定のために高密度なコストボリューム(DCV)を必要とする。
そこで我々は,SCV-Stereoを提案する。SCV-Stereoは,疎コストボリューム表現から高密度ステレオマッチングを学習できる新しいCNNアーキテクチャである。
我々のインスピレーションは、DCV表現がやや冗長であり、SCV表現に置き換えられるという事実から導かれる。
論文 参考訳(メタデータ) (2021-07-17T05:45:44Z) - ES-Net: An Efficient Stereo Matching Network [4.8986598953553555]
既存のステレオマッチングネットワークは通常、性能を改善するために遅くて計算コストのかかる3D畳み込みを使用する。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:11:39Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。