論文の概要: DCVNet: Dilated Cost Volume Networks for Fast Optical Flow
- arxiv url: http://arxiv.org/abs/2103.17271v1
- Date: Wed, 31 Mar 2021 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 15:53:53.873985
- Title: DCVNet: Dilated Cost Volume Networks for Fast Optical Flow
- Title(参考訳): DCVNet:高速光フローのための拡張コストボリュームネットワーク
- Authors: Huaizu Jiang, Erik Learned-Miller
- Abstract要約: そこで我々は, 連続処理を必要とせず, 光学的フロー推定が可能な, 小型かつ大規模な変位を同時に捉えるための拡張コストボリュームを提案する。
拡張コストボリュームと3D畳み込みを組み合わせることで、提案したモデルDCVNetはリアルタイム推論(1080tiの中間GPUで71fps)を行う。
- 参考スコア(独自算出の注目度): 8.332579292354708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cost volume, capturing the similarity of possible correspondences across
two input images, is a key ingredient in state-of-the-art optical flow
approaches. When sampling for correspondences to build the cost volume, a large
neighborhood radius is required to deal with large displacements, introducing a
significant computational burden. To address this, a sequential strategy is
usually adopted, where correspondence sampling in a local neighborhood with a
small radius suffices. However, such sequential approaches, instantiated by
either a pyramid structure over a deep neural network's feature hierarchy or by
a recurrent neural network, are slow due to the inherent need for sequential
processing of cost volumes. In this paper, we propose dilated cost volumes to
capture small and large displacements simultaneously, allowing optical flow
estimation without the need for the sequential estimation strategy. To process
the cost volume to get pixel-wise optical flow, existing approaches employ 2D
or separable 4D convolutions, which we show either suffer from high GPU memory
consumption, inferior accuracy, or large model size. Therefore, we propose
using 3D convolutions for cost volume filtering to address these issues. By
combining the dilated cost volumes and 3D convolutions, our proposed model
DCVNet not only exhibits real-time inference (71 fps on a mid-end 1080ti GPU)
but is also compact and obtains comparable accuracy to existing approaches.
- Abstract(参考訳): 2つの入力画像にまたがる対応の類似性を捉えるコストボリュームは、最先端光フローアプローチの重要な要素である。
コストボリュームを構築するための対応をサンプリングする場合、大きな変位に対処するために大きな近傍半径が必要となり、かなりの計算負荷がかかる。
これを解決するために、通常は、半径が小さい局所地区での対応サンプリングを行うシーケンシャル戦略が採用されている。
しかし、このようなシーケンシャルなアプローチは、ディープニューラルネットワークの特徴階層上のピラミッド構造か、あるいはリカレントニューラルネットワークによってインスタンス化され、コストボリュームのシーケンシャルな処理を必要とするため、遅い。
本稿では,小型かつ大規模な変位を同時に捉えるための拡張コストボリュームを提案し,逐次推定戦略を必要とせず,光学的フロー推定を可能にする。
コストボリュームを処理して画素単位の光学的フローを得るため、既存のアプローチでは2Dまたは分離可能な4D畳み込みを採用しており、これは高いGPUメモリ消費、低い精度、または大きなモデルサイズに悩まされていることを示す。
そこで,本稿では3次元畳み込みを用いたコストボリュームフィルタリングを提案する。
拡張コストボリュームと3D畳み込みを組み合わせることで、提案モデルDCVNetはリアルタイム推論(中間1080ti GPUで71fps)だけでなく、コンパクトで既存のアプローチと同等の精度が得られる。
関連論文リスト
- DCVSMNet: Double Cost Volume Stereo Matching Network [0.0]
DCVSMNetは67msの推論時間と強力な一般化能力を備えた高速ステレオマッチングネットワークである。
いくつかのベンチマークデータセットの結果から、DCVSMNetは、CGI-StereoやBGNetのような手法よりも、推論時間が高いコストで精度が高いことが示されている。
論文 参考訳(メタデータ) (2024-02-26T10:42:25Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow [44.57023882737517]
光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
論文 参考訳(メタデータ) (2023-06-09T06:10:59Z) - LLA-FLOW: A Lightweight Local Aggregation on Cost Volume for Optical
Flow Estimation [35.922073542578055]
いくつかの手法は、ネットワークが推定にコストボリュームのグローバル情報を使用することを可能にする、スタック化されたトランスフォーマーモジュールを挿入する。
しかし、グローバルな情報集約は、トレーニングと推論の間に深刻なメモリと時間コストを引き起こし、モデルデプロイメントを妨げます。
我々は、従来の地域制約からインスピレーションを得て、ローカル類似度集約(LSA)とシフトローカル類似度集約(SLSA)を設計する。
Sintelの最終パスの実験は、競争性能を維持しながら、我々のアプローチに必要なコストが低いことを示している。
論文 参考訳(メタデータ) (2023-04-17T09:22:05Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation [109.64756528516631]
学習のマッチングコストは、最先端のディープステレオマッチング手法の成功に不可欠であることが示されている。
本稿では,5次元特徴量構築の要件を回避できる新しい手法を提案する。
提案手法は,各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れる。
論文 参考訳(メタデータ) (2020-10-28T09:57:00Z) - LiteFlowNet3: Resolving Correspondence Ambiguity for More Accurate
Optical Flow Estimation [99.19322851246972]
本稿では,光フロー推定の問題に対処する2つのモジュールからなるディープネットワークである LiteFlowNet3 を紹介する。
LiteFlowNet3は、公開ベンチマークで有望な結果を達成するだけでなく、小さなモデルサイズと高速なランタイムも備えている。
論文 参考訳(メタデータ) (2020-07-18T03:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。