論文の概要: Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation
- arxiv url: http://arxiv.org/abs/2108.05773v1
- Date: Thu, 12 Aug 2021 14:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 21:00:11.126779
- Title: Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation
- Title(参考訳): Correlate-and-Excite: Guided Cost Volume Excitationによるリアルタイムステレオマッチング
- Authors: Antyanta Bangunharcana, Jae Won Cho, Seokju Lee, In So Kweon,
Kyung-Soo Kim, Soohyun Kim
- Abstract要約: 本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
- 参考スコア(独自算出の注目度): 65.83008812026635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Volumetric deep learning approach towards stereo matching aggregates a cost
volume computed from input left and right images using 3D convolutions. Recent
works showed that utilization of extracted image features and a spatially
varying cost volume aggregation complements 3D convolutions. However, existing
methods with spatially varying operations are complex, cost considerable
computation time, and cause memory consumption to increase. In this work, we
construct Guided Cost volume Excitation (GCE) and show that simple channel
excitation of cost volume guided by image can improve performance considerably.
Moreover, we propose a novel method of using top-k selection prior to
soft-argmin disparity regression for computing the final disparity estimate.
Combining our novel contributions, we present an end-to-end network that we
call Correlate-and-Excite (CoEx). Extensive experiments of our model on the
SceneFlow, KITTI 2012, and KITTI 2015 datasets demonstrate the effectiveness
and efficiency of our model and show that our model outperforms other
speed-based algorithms while also being competitive to other state-of-the-art
algorithms. Codes will be made available at https://github.com/antabangun/coex.
- Abstract(参考訳): ステレオマッチングへのボリューム型ディープラーニングアプローチは、3次元畳み込みを用いた入力左右画像から計算したコストボリュームを集約する。
近年の研究では,3次元畳み込みを補完する画像特徴と空間的に変化するコスト容積の蓄積の利用が示されている。
しかし、空間的に異なる操作を持つ既存の手法は複雑であり、計算にかなりのコストがかかり、メモリ消費が増加する。
本研究では,ガイド付きコストボリューム励起(gce)を構築し,画像ガイド付きコストボリュームの簡易チャネル励起により,性能が大幅に向上することを示す。
さらに,最終不等式推定値を計算するために,ソフト・アーグミン不等式回帰に先立ってトップk選択を用いる新しい手法を提案する。
新たな貢献を組み合わせることで,我々はcoex(relation-and-excite)と呼ぶエンドツーエンドネットワークを提案する。
SceneFlow、KITTI 2012、KITTI 2015データセットにおける我々のモデルの大規模な実験は、我々のモデルの有効性と効率を実証し、我々のモデルは他の速度ベースアルゴリズムよりも優れており、他の最先端アルゴリズムと競合していることを示す。
コードはhttps://github.com/antabangun/coexで入手できる。
関連論文リスト
- LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation [15.8316030600106]
LightStereoは、マッチングプロセスを加速するために作られた最先端のステレオマッチングネットワークである。
私たちのブレークスルーは、3Dコストボリュームのチャネル次元に特化してパフォーマンスを向上させることです。
LightStereoは、SceneFlowデータセットで競合するEPEメトリックを達成し、最低でも22GFLOPしか必要とせず、推論時間はわずか17msである。
論文 参考訳(メタデータ) (2024-06-28T11:11:24Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Curvature-guided dynamic scale networks for Multi-view Stereo [10.667165962654996]
本稿では,重み計算を伴わずにマッチングコストの性能を向上させるために,ロバストな特徴抽出ネットワークを学習することに焦点を当てる。
動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。
複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。
論文 参考訳(メタデータ) (2021-12-11T14:41:05Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching [27.313740022587442]
ステレオマッチングネットワークのロバスト性を改善するために,カスケードとフューズドのコストボリュームに基づくネットワークCFNetを提案する。
分散に基づく不確実性推定を用いて、次の段階の差分探索空間を適応的に調整する。
提案手法は、最先端の総合性能を達成し、Robust Vision Challenge 2020のステレオタスクで1位を獲得します。
論文 参考訳(メタデータ) (2021-04-09T11:38:59Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Content-Aware Inter-Scale Cost Aggregation for Stereo Matching [42.02981855948903]
本手法は,異なるスケールで情報収集を行う際に,信頼性の高い詳細回復を実現する。
3次元フィルタ重みを効率的に構築し、3次元コスト容積を集約する新しい分解戦略を提案する。
Scene Flow データセット,KITTI2015 と Middlebury の実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-06-05T02:38:34Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z) - CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks [87.02416370081123]
3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。
本稿では,標準的な3Dコンボリューションを一連の経済活動に縮小させることで,効率的な3D学習を実現するために,チャネルワイドなKErnel Shrinking(CAKES)を提案する。
論文 参考訳(メタデータ) (2020-03-28T14:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。