論文の概要: CogStereo: Neural Stereo Matching with Implicit Spatial Cognition Embedding
- arxiv url: http://arxiv.org/abs/2510.22119v1
- Date: Sat, 25 Oct 2025 02:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.825681
- Title: CogStereo: Neural Stereo Matching with Implicit Spatial Cognition Embedding
- Title(参考訳): CogStereo: 空間認知埋め込みによるニューラルステレオマッチング
- Authors: Lihuang Fang, Xiao Hu, Yuchen Zou, Hong Zhang,
- Abstract要約: CogStereoは、データセット固有の前提に頼らずに、挑戦的な領域に対処する新しいフレームワークである。
CogStereoは、単眼深度特徴を先行として使用することにより、暗黙の空間認識を洗練プロセスに組み込む。
CogStereoは、画素ワイド不確実性と認識誘導特徴を組み合わせた二重条件改善機構を用いて、ミスマッチの一貫したグローバルな補正を行う。
- 参考スコア(独自算出の注目度): 5.663297699303346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep stereo matching has advanced significantly on benchmark datasets through fine-tuning but falls short of the zero-shot generalization seen in foundation models in other vision tasks. We introduce CogStereo, a novel framework that addresses challenging regions, such as occlusions or weak textures, without relying on dataset-specific priors. CogStereo embeds implicit spatial cognition into the refinement process by using monocular depth features as priors, capturing holistic scene understanding beyond local correspondences. This approach ensures structurally coherent disparity estimation, even in areas where geometry alone is inadequate. CogStereo employs a dual-conditional refinement mechanism that combines pixel-wise uncertainty with cognition-guided features for consistent global correction of mismatches. Extensive experiments on Scene Flow, KITTI, Middlebury, ETH3D, EuRoc, and real-world demonstrate that CogStereo not only achieves state-of-the-art results but also excels in cross-domain generalization, shifting stereo vision towards a cognition-driven approach.
- Abstract(参考訳): ディープステレオマッチングは、微調整によってベンチマークデータセットに大きく進歩しているが、他のビジョンタスクの基盤モデルに見られるゼロショットの一般化には及ばない。
CogStereoは、オクルージョンや弱いテクスチャといった挑戦的な領域に対処する新しいフレームワークで、データセット固有のプリミティブに依存しない。
CogStereoは、単眼の深度特徴を先行として使用し、局所的な対応を超えて全体像を理解することによって、暗黙の空間認知を洗練プロセスに組み込む。
このアプローチは、幾何学のみが不十分な領域であっても、構造的に一貫した不均一性の推定を保証する。
CogStereoは、画素ワイド不確実性と認識誘導特徴を組み合わせた二重条件改善機構を用いて、ミスマッチの一貫したグローバルな補正を行う。
Scene Flow、KITTI、Middlebury、ETH3D、EuRoc、および実世界の大規模な実験は、CogStereoが最先端の結果を達成するだけでなく、クロスドメインの一般化にも優れており、ステレオビジョンを認知駆動アプローチへとシフトしていることを示している。
関連論文リスト
- Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising [16.405355853358202]
ハイパースペクトル画像(HSI)はリモートセンシングにおいて重要な役割を果たすが、複雑なノイズパターンによって劣化することが多い。
分解されたHSIの物理的特性の確保は、強靭なHSIの分解に不可欠であり、深層展開法が台頭する。
本研究では,局所的空間スペクトル相関,非局所的空間自己相似性,大域的空間一貫性を統一するDeep Equilibrium Convolutional Sparse Coding(DECSC)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:35:11Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - DEFOM-Stereo: Depth Foundation Model Based Stereo Matching [12.22373236061929]
DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
SOTA法と比較してより強いゼロショットの一般化があることが確認された。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
論文 参考訳(メタデータ) (2025-01-16T10:59:29Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Towards Higher-order Topological Consistency for Unsupervised Network
Alignment [41.763907024585926]
完全教師なしネットワークアライメントフレームワークであるHTCを提案する。
提案した高次位相整合性は、エッジ軌道に基づいて定式化される。
エンコーダはマルチビット対応に訓練され、さらに信頼性の高いアンカーリンクを特定するように洗練される。
論文 参考訳(メタデータ) (2022-08-26T07:09:13Z) - ChiTransformer:Towards Reliable Stereo from Cues [10.756828396434033]
現在のステレオマッチング技術は、制限された探索空間、隠蔽領域、およびせん断サイズによって挑戦される。
本稿では,光学機構にインスパイアされた自己監督型両眼深度推定法を提案する。
ChiTransformerアーキテクチャは、最先端の自己教師型ステレオアプローチよりも11%大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-09T07:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。