論文の概要: DCVNet: Dilated Cost Volume Networks for Fast Optical Flow
- arxiv url: http://arxiv.org/abs/2103.17271v1
- Date: Wed, 31 Mar 2021 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 15:53:53.873985
- Title: DCVNet: Dilated Cost Volume Networks for Fast Optical Flow
- Title(参考訳): DCVNet:高速光フローのための拡張コストボリュームネットワーク
- Authors: Huaizu Jiang, Erik Learned-Miller
- Abstract要約: そこで我々は, 連続処理を必要とせず, 光学的フロー推定が可能な, 小型かつ大規模な変位を同時に捉えるための拡張コストボリュームを提案する。
拡張コストボリュームと3D畳み込みを組み合わせることで、提案したモデルDCVNetはリアルタイム推論(1080tiの中間GPUで71fps)を行う。
- 参考スコア(独自算出の注目度): 8.332579292354708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cost volume, capturing the similarity of possible correspondences across
two input images, is a key ingredient in state-of-the-art optical flow
approaches. When sampling for correspondences to build the cost volume, a large
neighborhood radius is required to deal with large displacements, introducing a
significant computational burden. To address this, a sequential strategy is
usually adopted, where correspondence sampling in a local neighborhood with a
small radius suffices. However, such sequential approaches, instantiated by
either a pyramid structure over a deep neural network's feature hierarchy or by
a recurrent neural network, are slow due to the inherent need for sequential
processing of cost volumes. In this paper, we propose dilated cost volumes to
capture small and large displacements simultaneously, allowing optical flow
estimation without the need for the sequential estimation strategy. To process
the cost volume to get pixel-wise optical flow, existing approaches employ 2D
or separable 4D convolutions, which we show either suffer from high GPU memory
consumption, inferior accuracy, or large model size. Therefore, we propose
using 3D convolutions for cost volume filtering to address these issues. By
combining the dilated cost volumes and 3D convolutions, our proposed model
DCVNet not only exhibits real-time inference (71 fps on a mid-end 1080ti GPU)
but is also compact and obtains comparable accuracy to existing approaches.
- Abstract(参考訳): 2つの入力画像にまたがる対応の類似性を捉えるコストボリュームは、最先端光フローアプローチの重要な要素である。
コストボリュームを構築するための対応をサンプリングする場合、大きな変位に対処するために大きな近傍半径が必要となり、かなりの計算負荷がかかる。
これを解決するために、通常は、半径が小さい局所地区での対応サンプリングを行うシーケンシャル戦略が採用されている。
しかし、このようなシーケンシャルなアプローチは、ディープニューラルネットワークの特徴階層上のピラミッド構造か、あるいはリカレントニューラルネットワークによってインスタンス化され、コストボリュームのシーケンシャルな処理を必要とするため、遅い。
本稿では,小型かつ大規模な変位を同時に捉えるための拡張コストボリュームを提案し,逐次推定戦略を必要とせず,光学的フロー推定を可能にする。
コストボリュームを処理して画素単位の光学的フローを得るため、既存のアプローチでは2Dまたは分離可能な4D畳み込みを採用しており、これは高いGPUメモリ消費、低い精度、または大きなモデルサイズに悩まされていることを示す。
そこで,本稿では3次元畳み込みを用いたコストボリュームフィルタリングを提案する。
拡張コストボリュームと3D畳み込みを組み合わせることで、提案モデルDCVNetはリアルタイム推論(中間1080ti GPUで71fps)だけでなく、コンパクトで既存のアプローチと同等の精度が得られる。
関連論文リスト
- Memory-Efficient Optical Flow via Radius-Distribution Orthogonal Cost
Volume [6.122542233250026]
本稿では,高分解能光フロー推定のためのメモリ効率の高い新しい手法であるMeFlowを提案する。
Sintel と KITTI のベンチマークでは,高解像度入力において高いメモリ効率を維持しながら,競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-06T12:43:11Z) - Curvature-guided dynamic scale networks for Multi-view Stereo [10.667165962654996]
本稿では,重み計算を伴わずにマッチングコストの性能を向上させるために,ロバストな特徴抽出ネットワークを学習することに焦点を当てる。
動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。
複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。
論文 参考訳(メタデータ) (2021-12-11T14:41:05Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching [33.66537830990198]
本研究では,3次元畳み込みフィルタで用いる4次元立方体体積を相違点方向の逐次コストマップに分解する。
新たなリカレントモジュールであるスタックド・リカレント・ホアーグラス(SRH)が,各コストマップの処理のために提案されている。
提案アーキテクチャはエンドツーエンドのパイプラインで実装され、パブリックデータセットで評価される。
論文 参考訳(メタデータ) (2021-05-25T00:10:56Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation [109.64756528516631]
学習のマッチングコストは、最先端のディープステレオマッチング手法の成功に不可欠であることが示されている。
本稿では,5次元特徴量構築の要件を回避できる新しい手法を提案する。
提案手法は,各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れる。
論文 参考訳(メタデータ) (2020-10-28T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。