論文の概要: H-OmniStereo: Zero-Shot Omnidirectional Stereo Matching with Heading-Aligned Normal Priors
- arxiv url: http://arxiv.org/abs/2605.14963v2
- Date: Sat, 16 May 2026 11:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.088064
- Title: H-OmniStereo: Zero-Shot Omnidirectional Stereo Matching with Heading-Aligned Normal Priors
- Title(参考訳): H-OmniStereo:H-OmniStereo-Zero-Shot Omnidirectional Stereo Matching with Heading-Aligned Normal Priors (特集:H-OmniStereo)
- Authors: Chenxing Jiang, Zhe Tong, Pusen Gao, Peize Liu, Yang Xu, Chuan Fang, Ping Tan, Shaojie Shen,
- Abstract要約: H-OmniStereoはゼロショット全方位ステレオマッチングフレームワークである。
我々は280万以上のトップボトム等方形ステレオペアからなる高品質な合成データセットを構築した。
提案手法はドメイン外データセットの既存手法よりも精度が高い。
- 参考スコア(独自算出の注目度): 39.6437115448559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereo matching on top-bottom equirectangular images provides an effective framework for full-surround perception, as vertically aligned epipolar lines enable the use of advanced perspective stereo architectures that are largely driven by large-scale datasets and monocular priors. However, the performance of such adaptations is severely limited by the scarcity of omnidirectional stereo datasets and the degradation of perspective monocular priors under spherical distortions. To address these challenges, we propose H-OmniStereo, a zero-shot omnidirectional stereo matching framework. First, we construct high-quality synthetic dataset comprising over 2.8 million top-bottom equirectangular stereo pairs to scale up training. Second, we introduce an equirectangular monocular normal estimator, specifically operating in a heading-aligned coordinate system. Beyond providing distortion-robust and cross-view-consistent geometric priors for establishing reliable correspondences in stereo matching, this design boosts training efficiency and accommodates train-test FoV mismatches. Extensive experiments show that our approach achieves higher accuracy than existing methods on out-of-domain datasets and successfully generalizes to real-world consumer camera setups using a single model. The model and dataset will be released at https://github.com/JIANG-CX/H-OmniStereo.
- Abstract(参考訳): トップボトム等方形画像上のステレオマッチングは、大規模データセットとモノクル先行によって大きく駆動される高度な視点ステレオアーキテクチャの使用を可能にするため、全周知覚に有効なフレームワークを提供する。
しかし、全方位ステレオデータセットの不足や、球面歪み下での視点単分子先行の劣化により、そのような適応の性能は著しく制限されている。
これらの課題に対処するため、ゼロショット全方位ステレオマッチングフレームワークであるH-OmniStereoを提案する。
まず,280万以上のトップボトム等方形ステレオペアからなる高品質な合成データセットを構築し,トレーニングをスケールアップする。
第2に、等方形単分子正規分布推定器を導入し、特に方向座標系で動作させる。
この設計は、ステレオマッチングにおける信頼性の高い対応を確立するための歪みロストおよびクロスビュー一貫性の幾何学的先行性を提供するだけでなく、訓練効率を高め、FoVのミスマッチを許容する。
大規模な実験により,本手法はドメイン外データセットの既存手法よりも精度が高く,単一のモデルを用いて現実のコンシューマ・カメラ・セットアップに応用できることが判明した。
モデルとデータセットはhttps://github.com/JIANG-CX/H-OmniStereoで公開される。
関連論文リスト
- Stereo World Model: Camera-Guided Stereo Video Generation [52.3922115596956]
本稿では、ステレオビデオ生成のための外観と両眼形状を共同で学習するカメラコンディショニングステレオワールドモデルであるStereoWorldを紹介する。
単分子RGBやRGBDのアプローチとは異なり、StereoWorldはRGBモードでのみ動作する。
論文 参考訳(メタデータ) (2026-03-18T05:42:22Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [70.67610495024459]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - ChiTransformer:Towards Reliable Stereo from Cues [10.756828396434033]
現在のステレオマッチング技術は、制限された探索空間、隠蔽領域、およびせん断サイズによって挑戦される。
本稿では,光学機構にインスパイアされた自己監督型両眼深度推定法を提案する。
ChiTransformerアーキテクチャは、最先端の自己教師型ステレオアプローチよりも11%大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-09T07:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。