論文の概要: Displacement-Invariant Cost Computation for Efficient Stereo Matching
- arxiv url: http://arxiv.org/abs/2012.00899v1
- Date: Tue, 1 Dec 2020 23:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:42:15.989468
- Title: Displacement-Invariant Cost Computation for Efficient Stereo Matching
- Title(参考訳): 効率的なステレオマッチングのための変位不変コスト計算
- Authors: Yiran Zhong, Charles Loop, Wonmin Byeon, Stan Birchfield, Yuchao Dai,
Kaihao Zhang, Alexey Kamenev, Thomas Breuel, Hongdong Li, Jan Kautz
- Abstract要約: ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
- 参考スコア(独自算出の注目度): 122.94051630000934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep learning-based methods have dominated stereo matching
leaderboards by yielding unprecedented disparity accuracy, their inference time
is typically slow, on the order of seconds for a pair of 540p images. The main
reason is that the leading methods employ time-consuming 3D convolutions
applied to a 4D feature volume. A common way to speed up the computation is to
downsample the feature volume, but this loses high-frequency details. To
overcome these challenges, we propose a \emph{displacement-invariant cost
computation module} to compute the matching costs without needing a 4D feature
volume. Rather, costs are computed by applying the same 2D convolution network
on each disparity-shifted feature map pair independently. Unlike previous 2D
convolution-based methods that simply perform context mapping between inputs
and disparity maps, our proposed approach learns to match features between the
two images. We also propose an entropy-based refinement strategy to refine the
computed disparity map, which further improves speed by avoiding the need to
compute a second disparity map on the right image. Extensive experiments on
standard datasets (SceneFlow, KITTI, ETH3D, and Middlebury) demonstrate that
our method achieves competitive accuracy with much less inference time. On
typical image sizes, our method processes over 100 FPS on a desktop GPU, making
our method suitable for time-critical applications such as autonomous driving.
We also show that our approach generalizes well to unseen datasets,
outperforming 4D-volumetric methods.
- Abstract(参考訳): 深層学習に基づく手法は、前例のない不一致の精度でステレオマッチングのリーダーボードを支配してきたが、その推論時間は典型的には540p画像の秒順に遅い。
主な理由は、4D特徴量に適用される時間を要する3D畳み込みを用いる方法である。
計算をスピードアップする一般的な方法は、特徴量の縮小であるが、これは高周波の詳細を失う。
これらの課題を克服するために,4次元特徴量を必要としないマッチングコストを計算するために,emph{displacement-invariant cost compute module}を提案する。
むしろ、各差分シフトした特徴写像対に同じ2D畳み込みネットワークを適用してコストを算出する。
入力と不均一マップ間のコンテキストマッピングを簡易に行う従来の2次元畳み込み法とは異なり,提案手法は2つの画像間の特徴に一致することを学習する。
また, エントロピーに基づく改良手法を提案し, 右画像上の第2の差分マップの計算を不要にすることで, 高速化を図る。
標準データセット(SceneFlow,KITTI,ETH3D,Middlebury)の大規模な実験により,提案手法がより少ない推論時間で競合精度を実現することを示す。
典型的な画像サイズでは、デスクトップGPU上で100FPS以上を処理し、自律運転のような時間クリティカルなアプリケーションに適合する。
また, 提案手法は, 4D-volumetric法よりも優れていることを示す。
関連論文リスト
- Occupancy-Based Dual Contouring [12.944046673902415]
本稿では,2重畳み込み方式を提案する。
本手法は,GPU並列化を最大化するために,学習不要かつ慎重に設計されている。
論文 参考訳(メタデータ) (2024-09-20T11:32:21Z) - Image-Coupled Volume Propagation for Stereo Matching [0.24366811507669117]
我々は,共生関係を実現するために,一つのフレームワークに2つの異なる概念をマージする4Dコストボリュームを処理する新しい方法を提案する。
特徴マッチング部は、同一画素対を基準線に沿って識別し、同時画像ボリューム部はモノCNNからの奥行きにインスパイアされる。
エンドツーエンドのトレーニング済みCNNは、KITTI2012とETH3Dベンチマークで2位にランクされ、第1ランクの手法よりもはるかに高速です。
論文 参考訳(メタデータ) (2022-12-30T13:23:25Z) - Differentiable Point-Based Radiance Fields for Efficient View Synthesis [57.56579501055479]
本稿では,効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。
我々の手法は、トレーニングと推論の両方において、NeRFよりも最大300倍高速である。
ダイナミックなシーンでは,STNeRFよりも2桁早く,ほぼインタラクティブなレートでレンダリングを行う。
論文 参考訳(メタデータ) (2022-05-28T04:36:13Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation [109.64756528516631]
学習のマッチングコストは、最先端のディープステレオマッチング手法の成功に不可欠であることが示されている。
本稿では,5次元特徴量構築の要件を回避できる新しい手法を提案する。
提案手法は,各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れる。
論文 参考訳(メタデータ) (2020-10-28T09:57:00Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Real-time Dense Reconstruction of Tissue Surface from Stereo Optical
Video [10.181846237133167]
立体光学ビデオから組織表面の高密度3次元モデル(3次元)をリアルタイムに再構成する手法を提案する。
まずステレオマッチングを用いてビデオフレームから3D情報を抽出し,再構成した3Dモデルをモザイクする。
2mm未満の精度で高分解能テクスチャを有する復元3Dモデルについて, 生体内および生体内データによる実験結果を得た。
論文 参考訳(メタデータ) (2020-07-16T19:14:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。