論文の概要: Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation
- arxiv url: http://arxiv.org/abs/2010.14851v1
- Date: Wed, 28 Oct 2020 09:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:29:15.816146
- Title: Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation
- Title(参考訳): 高精度光流量推定のための変位不変マッチングコスト学習
- Authors: Jianyuan Wang, Yiran Zhong, Yuchao Dai, Kaihao Zhang, Pan Ji, Hongdong
Li
- Abstract要約: 学習のマッチングコストは、最先端のディープステレオマッチング手法の成功に不可欠であることが示されている。
本稿では,5次元特徴量構築の要件を回避できる新しい手法を提案する。
提案手法は,各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れる。
- 参考スコア(独自算出の注目度): 109.64756528516631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning matching costs has been shown to be critical to the success of the
state-of-the-art deep stereo matching methods, in which 3D convolutions are
applied on a 4D feature volume to learn a 3D cost volume. However, this
mechanism has never been employed for the optical flow task. This is mainly due
to the significantly increased search dimension in the case of optical flow
computation, ie, a straightforward extension would require dense 4D
convolutions in order to process a 5D feature volume, which is computationally
prohibitive. This paper proposes a novel solution that is able to bypass the
requirement of building a 5D feature volume while still allowing the network to
learn suitable matching costs from data. Our key innovation is to decouple the
connection between 2D displacements and learn the matching costs at each 2D
displacement hypothesis independently, ie, displacement-invariant cost
learning. Specifically, we apply the same 2D convolution-based matching net
independently on each 2D displacement hypothesis to learn a 4D cost volume.
Moreover, we propose a displacement-aware projection layer to scale the learned
cost volume, which reconsiders the correlation between different displacement
candidates and mitigates the multi-modal problem in the learned cost volume.
The cost volume is then projected to optical flow estimation through a 2D
soft-argmin layer. Extensive experiments show that our approach achieves
state-of-the-art accuracy on various datasets, and outperforms all published
optical flow methods on the Sintel benchmark.
- Abstract(参考訳): 3次元特徴量に3次元畳み込みを適用して3次元コストボリュームを学習する、最先端の立体マッチング手法の成功には、学習のマッチングコストが不可欠であることが示されている。
しかし、この機構は光学フロータスクに採用されていない。
これは主に、光学フロー計算の場合の探索次元が大幅に大きくなるため、計算的に禁止される5D特徴量を処理するために、単純な拡張は密度の高い4D畳み込みを必要とする。
本稿では,ネットワークがデータから適切なマッチングコストを学習できると同時に,5次元特徴量構築の必要性を回避できる新しい解を提案する。
我々の重要な革新は、2次元変位間の接続を分離し、各2次元変位仮説において一致するコストを独立に学習することである。
具体的には、各2次元変位仮説に独立して同じ2次元畳み込みに基づくマッチングネットを適用し、4次元コストボリュームを学習する。
さらに, 異なる変位候補間の相関を再考し, 学習コストボリュームにおけるマルチモーダル問題を緩和する, 学習コストボリュームをスケールする変位対応投影層を提案する。
その後、コストは2次元ソフトアルグミン層による光流量推定に投射される。
広汎な実験により,本手法は各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れていた。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Memory-Efficient Optical Flow via Radius-Distribution Orthogonal Cost
Volume [6.122542233250026]
本稿では,高分解能光フロー推定のためのメモリ効率の高い新しい手法であるMeFlowを提案する。
Sintel と KITTI のベンチマークでは,高解像度入力において高いメモリ効率を維持しながら,競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-06T12:43:11Z) - OCTraN: 3D Occupancy Convolutional Transformer Network in Unstructured
Traffic Scenarios [0.0]
我々は2次元画像特徴を3次元占有特徴に変換するために反復アテンションを用いたトランスフォーマーアーキテクチャOCTraNを提案する。
また、LiDARの地上真実の必要性を排除し、任意のシーンにモデルを一般化するための自己教師型トレーニングパイプラインも開発している。
論文 参考訳(メタデータ) (2023-07-20T15:06:44Z) - Image-Coupled Volume Propagation for Stereo Matching [0.24366811507669117]
我々は,共生関係を実現するために,一つのフレームワークに2つの異なる概念をマージする4Dコストボリュームを処理する新しい方法を提案する。
特徴マッチング部は、同一画素対を基準線に沿って識別し、同時画像ボリューム部はモノCNNからの奥行きにインスパイアされる。
エンドツーエンドのトレーニング済みCNNは、KITTI2012とETH3Dベンチマークで2位にランクされ、第1ランクの手法よりもはるかに高速です。
論文 参考訳(メタデータ) (2022-12-30T13:23:25Z) - High-Resolution Optical Flow from 1D Attention and Correlation [89.61824964952949]
計算量を大幅に削減した高分解能光フロー推定法を提案する。
まず、対象画像の垂直方向の1Dアテンション操作を行い、その後、参加者画像の水平方向の単純な1D相関を行う。
Sintel,KITTIおよび実世界の4K解像度画像を用いた実験により,提案手法の有効性と優位性を示した。
論文 参考訳(メタデータ) (2021-04-28T17:56:34Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Content-Aware Inter-Scale Cost Aggregation for Stereo Matching [42.02981855948903]
本手法は,異なるスケールで情報収集を行う際に,信頼性の高い詳細回復を実現する。
3次元フィルタ重みを効率的に構築し、3次元コスト容積を集約する新しい分解戦略を提案する。
Scene Flow データセット,KITTI2015 と Middlebury の実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-06-05T02:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。