論文の概要: Image-Coupled Volume Propagation for Stereo Matching
- arxiv url: http://arxiv.org/abs/2301.00695v1
- Date: Fri, 30 Dec 2022 13:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:21:12.537073
- Title: Image-Coupled Volume Propagation for Stereo Matching
- Title(参考訳): ステレオマッチングのための画像結合ボリューム伝搬
- Authors: Oh-Hun Kwon, Eduard Zell
- Abstract要約: 我々は,共生関係を実現するために,一つのフレームワークに2つの異なる概念をマージする4Dコストボリュームを処理する新しい方法を提案する。
特徴マッチング部は、同一画素対を基準線に沿って識別し、同時画像ボリューム部はモノCNNからの奥行きにインスパイアされる。
エンドツーエンドのトレーニング済みCNNは、KITTI2012とETH3Dベンチマークで2位にランクされ、第1ランクの手法よりもはるかに高速です。
- 参考スコア(独自算出の注目度): 0.24366811507669117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several leading methods on public benchmarks for depth-from-stereo rely on
memory-demanding 4D cost volumes and computationally intensive 3D convolutions
for feature matching. We suggest a new way to process the 4D cost volume where
we merge two different concepts in one deeply integrated framework to achieve a
symbiotic relationship. A feature matching part is responsible for identifying
matching pixels pairs along the baseline while a concurrent image volume part
is inspired by depth-from-mono CNNs. However, instead of predicting depth
directly from image features, it provides additional context to resolve
ambiguities during pixel matching. More technically, the processing of the 4D
cost volume is separated into a 2D propagation and a 3D propagation part.
Starting from feature maps of the left image, the 2D propagation assists the 3D
propagation part of the cost volume at different layers by adding visual
features to the geometric context. By combining both parts, we can safely
reduce the scale of 3D convolution layers in the matching part without
sacrificing accuracy. Experiments demonstrate that our end-to-end trained CNN
is ranked 2nd on KITTI2012 and ETH3D benchmarks while being significantly
faster than the 1st-ranked method. Furthermore, we notice that the coupling of
image and matching-volume improves fine-scale details as demonstrated by our
qualitative analysis.
- Abstract(参考訳): メモリ要求の4Dコストボリュームと、特徴マッチングのための計算集約的な3D畳み込みに依存している。
2つの異なる概念を1つの深く統合されたフレームワークに統合し、共生関係を実現する4Dコストボリュームを処理する新しい方法を提案する。
特徴マッチング部はベースラインに沿ってマッチング画素対を識別し、並行画像ボリューム部は深度からモノへのcnnにインスパイアされる。
しかし、画像特徴から直接深度を予測する代わりに、画素マッチングのあいまいさを解決するための追加のコンテキストを提供する。
技術的には、4Dコストボリュームの処理を2D伝搬部と3D伝搬部とに分離する。
左画像の特徴マップから始めて、2D伝搬は、幾何学的文脈に視覚的特徴を加えることで、コストボリュームの3D伝搬部を異なる層で支援する。
両部品を組み合わせることで、マッチング部の3次元畳み込み層の規模を精度を犠牲にすることなく安全に低減することができる。
KITTI2012とETH3Dベンチマークでは、エンドツーエンドのトレーニング済みCNNが第2位にランクされ、第1ランクの手法よりもはるかに高速であることが示された。
さらに,画像とマッチングボリュームの結合は,定性解析によって示されるように,微細な詳細性を向上させる。
関連論文リスト
- ImplicitVol: Sensorless 3D Ultrasound Reconstruction with Deep Implicit
Representation [13.71137201718831]
本研究の目的は, 深い暗示表現を持つ2次元自由手超音波画像の集合から, 3次元ボリュームのセンサレス再構成を実現することである。
3次元体積を離散ボクセル格子として表現する従来の方法とは対照的に、連続函数のゼロレベル集合としてパラメータ化することでそうする。
提案モデルでは,インプリシットボル(ImplicitVol)が入力として2Dスキャンと推定位置を3Dで抽出し,推定した3D位置を共同で再現し,3Dボリュームの完全な再構築を学習する。
論文 参考訳(メタデータ) (2021-09-24T17:59:18Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation [109.64756528516631]
学習のマッチングコストは、最先端のディープステレオマッチング手法の成功に不可欠であることが示されている。
本稿では,5次元特徴量構築の要件を回避できる新しい手法を提案する。
提案手法は,各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れる。
論文 参考訳(メタデータ) (2020-10-28T09:57:00Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。