論文の概要: Diving into the Fusion of Monocular Priors for Generalized Stereo Matching
- arxiv url: http://arxiv.org/abs/2505.14414v1
- Date: Tue, 20 May 2025 14:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.353226
- Title: Diving into the Fusion of Monocular Priors for Generalized Stereo Matching
- Title(参考訳): 一般化ステレオマッチングのための単分子前駆体の融合への分岐
- Authors: Chengtang Yao, Lidong Yu, Zhidan Liu, Jiaxi Zeng, Yuwei Wu, Yunde Jia,
- Abstract要約: 近年,視覚基礎モデル (VFM) に先立って, 偏りのない単分子を応用して, 不測領域の一般化を向上することで, ステレオマッチングが進展している。
本稿では,深度マップを二項相対形式に変換する融合を導くための二項局所順序付けマップを提案する。
また、画素単位の線形回帰モジュールがそれらをグローバルかつ適応的に整列できるような登録問題として、単分子深度を不均質に最終的に直接融合させることを定式化する。
- 参考スコア(独自算出の注目度): 27.15757281613792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The matching formulation makes it naturally hard for the stereo matching to handle ill-posed regions like occlusions and non-Lambertian surfaces. Fusing monocular priors has been proven helpful for ill-posed matching, but the biased monocular prior learned from small stereo datasets constrains the generalization. Recently, stereo matching has progressed by leveraging the unbiased monocular prior from the vision foundation model (VFM) to improve the generalization in ill-posed regions. We dive into the fusion process and observe three main problems limiting the fusion of the VFM monocular prior. The first problem is the misalignment between affine-invariant relative monocular depth and absolute depth of disparity. Besides, when we use the monocular feature in an iterative update structure, the over-confidence in the disparity update leads to local optima results. A direct fusion of a monocular depth map could alleviate the local optima problem, but noisy disparity results computed at the first several iterations will misguide the fusion. In this paper, we propose a binary local ordering map to guide the fusion, which converts the depth map into a binary relative format, unifying the relative and absolute depth representation. The computed local ordering map is also used to re-weight the initial disparity update, resolving the local optima and noisy problem. In addition, we formulate the final direct fusion of monocular depth to the disparity as a registration problem, where a pixel-wise linear regression module can globally and adaptively align them. Our method fully exploits the monocular prior to support stereo matching results effectively and efficiently. We significantly improve the performance from the experiments when generalizing from SceneFlow to Middlebury and Booster datasets while barely reducing the efficiency.
- Abstract(参考訳): 一致する定式化は、立体マッチングが閉塞や非ランベルト面のような不測の領域を扱うのを自然に困難にする。
単分子前駆体を融合させることは不適切なマッチングに有効であることが証明されているが、小さなステレオデータセットから得られた偏りのある単分子前駆体は一般化を制約している。
近年,視覚基礎モデル (VFM) に先立って, 偏りのない単分子を応用して, 不測領域の一般化を向上することで, ステレオマッチングが進展している。
核融合プロセスに潜り込み、VFM単分子の融合に制限を与える3つの主要な問題を観察する。
第一の問題は、アフィン不変の相対的な単分子深さと絶対的な差の深さとの相違である。
さらに、反復的な更新構造で単分子的特徴を用いると、不均一な更新における過度な自信が局所的な最適結果をもたらす。
単分子深度写像の直接融合は局所最適問題を緩和することができるが、最初の数回で計算されたノイズの相違は融合を誤解させる。
本稿では,融合を誘導する二項局所順序付けマップを提案し,深度マップを二項相対形式に変換し,相対的および絶対的深度表現を統一する。
計算された局所順序写像は、初期差分更新を再重み付けし、局所最適および雑音問題を解消するためにも用いられる。
さらに,画素単位の線形回帰モジュールがそれらをグローバルかつ適応的に整列できる場合において,単分子深度と差分との最終的な直接融合を登録問題として定式化する。
本手法は,ステレオマッチングの結果を効果的かつ効率的に支援するために,単分子を十分に活用する。
SceneFlowからMiddleburyとBoosterのデータセットを一般化し、効率をわずかに低下させる実験により、性能を著しく改善する。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - V-FUSE: Volumetric Depth Map Fusion with Long-Range Constraints [6.7197802356130465]
本稿では,Multi-View Stereo(MVS)アルゴリズムによって生成された深度マップと信頼マップのセットを入力として受け入れ,改良する学習ベースの深度マップ融合フレームワークを提案する。
また、各線に沿った深度仮説探索空間を減らすために、より大きな融合サブネットワークと共に訓練された深度探索ウィンドウ推定サブネットワークを導入する。
本手法は,データから直接,深度コンセンサスと可視性制約の違反をモデル化することを学ぶ。
論文 参考訳(メタデータ) (2023-08-17T00:39:56Z) - Multi-resolution Monocular Depth Map Fusion by Self-supervised
Gradient-based Composition [14.246972408737987]
推定の利点を多分解能入力と組み合わせた新しい深度マップ融合モジュールを提案する。
我々の軽量深度核融合は1ショットでリアルタイムに動作し、最先端の深度核融合法よりも80倍高速である。
論文 参考訳(メタデータ) (2022-12-03T05:13:50Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View
Tomography [58.60249163402822]
未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。
提案したOMRはより堅牢で、従来の最先端のOMRアプローチよりも大幅に性能が向上している。
論文 参考訳(メタデータ) (2022-07-06T21:40:59Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Fusion of Range and Stereo Data for High-Resolution Scene-Modeling [20.824550995195057]
本稿では,高分解能深度マップの構築において,レンジステレオ融合の問題に対処する。
低分解能深度データと高分解能ステレオデータとを最大後部(MAP)定式化で組み合わせる。
エネルギー関数におけるデータ期間の3つの特性のために、方法の精度は損なわれません。
論文 参考訳(メタデータ) (2020-12-12T09:37:42Z) - Ladybird: Quasi-Monte Carlo Sampling for Deep Implicit Field Based 3D
Reconstruction with Symmetry [12.511526058118143]
本稿では,SGDに基づく最適化アルゴリズムの一般化と高速収束を理論的に促進するサンプリング手法を提案する。
物体の反射対称性に基づいて,自己閉塞による問題を緩和する特徴融合法を提案する。
提案システムでは,単一入力画像から高品質な3Dオブジェクト再構成を行うことができる。
論文 参考訳(メタデータ) (2020-07-27T09:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。