論文の概要: Stereo Anything: Unifying Zero-shot Stereo Matching with Large-Scale Mixed Data
- arxiv url: http://arxiv.org/abs/2411.14053v3
- Date: Wed, 17 Sep 2025 09:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:51.27704
- Title: Stereo Anything: Unifying Zero-shot Stereo Matching with Large-Scale Mixed Data
- Title(参考訳): Stereo Anything:Zero-shot Stereo Matchingと大規模混合データの統合
- Authors: Xianda Guo, Chenming Zhang, Youmin Zhang, Ruilin Wang, Dujun Nie, Wenzhao Zheng, Matteo Poggi, Hao Zhao, Mang Ye, Qin Zou, Long Chen,
- Abstract要約: ステレオマッチングは3次元視覚の基盤として機能し、深度回復のためのステレオ画像対間の画素ワイド対応を確立することを目的としている。
現在のモデルは、目に見えないドメインにデプロイすると、しばしば深刻なパフォーマンス劣化を示す。
データ中心のフレームワークであるStereoAnythingを導入し、既存のステレオモデルのゼロショット一般化能力を大幅に強化する。
- 参考スコア(独自算出の注目度): 77.27700893908012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching serves as a cornerstone in 3D vision, aiming to establish pixel-wise correspondences between stereo image pairs for depth recovery. Despite remarkable progress driven by deep neural architectures, current models often exhibit severe performance degradation when deployed in unseen domains, primarily due to the limited diversity of training data. In this work, we introduce StereoAnything, a data-centric framework that substantially enhances the zero-shot generalization capability of existing stereo models. Rather than devising yet another specialized architecture, we scale stereo training to an unprecedented level by systematically unifying heterogeneous stereo sources: (1) curated labeled datasets covering diverse environments, and (2) large-scale synthetic stereo pairs generated from unlabeled monocular images. Our mixed-data strategy delivers consistent and robust learning signals across domains, effectively mitigating dataset bias. Extensive zero-shot evaluations on four public benchmarks demonstrate that Stereo Anything achieves state-of-the-art generalization. This work paves the way towards truly universal stereo matching, offering a scalable data paradigm applicable to any stereo image pair. We extensively evaluate the zero-shot capabilities of our model on four public datasets, showcasing its impressive ability to generalize to any stereo image pair. Code is available at https://github.com/XiandaGuo/OpenStereo.
- Abstract(参考訳): ステレオマッチングは3次元視覚の基盤として機能し、深度回復のためのステレオ画像対間の画素ワイド対応を確立することを目的としている。
ディープニューラルネットワークアーキテクチャによる顕著な進歩にもかかわらず、現在のモデルでは、主にトレーニングデータの多様性が制限されているため、目に見えないドメインにデプロイされた場合、パフォーマンスが大幅に低下することが多い。
本稿では,既存のステレオモデルのゼロショット一般化能力を大幅に向上させるデータ中心型フレームワークであるStereoAnythingを紹介する。
1) 多様な環境をカバーするラベル付きデータセットをキュレートし, (2) ラベル付き単分子画像から生成された大規模合成ステレオペアを, 体系的に統一することで, ステレオトレーニングを前例のないレベルまでスケールする。
私たちの混合データ戦略は、ドメイン間の一貫性と堅牢な学習信号を提供し、データセットバイアスを効果的に軽減します。
4つの公開ベンチマークでの広範囲なゼロショット評価は、Stereo Anythingが最先端の一般化を実現していることを示している。
この作業は、あらゆるステレオ画像ペアに適用可能なスケーラブルなデータパラダイムを提供する、真に普遍的なステレオマッチングへの道を開いた。
4つの公開データセット上で、我々のモデルが持つゼロショット能力を広範囲に評価し、ステレオ画像対に一般化できる印象的な能力を示す。
コードはhttps://github.com/XiandaGuo/OpenStereo.comで入手できる。
関連論文リスト
- Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards [5.029575650441432]
テキストプロンプトが与えられたステレオ画像を生成するための拡散に基づく新しい手法を提案する。
総合的な実験は、高品質なステレオ画像の生成における我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2025-05-27T22:40:35Z) - Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:25:58Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - ZeroStereo: Zero-shot Stereo Matching from Single Images [17.560148513475387]
ゼロショットステレオマッチングのための新しいステレオ画像生成パイプラインであるZeroStereoを提案する。
提案手法は, 単眼深度推定モデルにより生成された擬似格差を利用して, 高品質な右画像の合成を行う。
我々のパイプラインは、Scene Flowに匹敵するデータセットボリュームで複数のデータセットにまたがる最先端のゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2025-01-15T08:43:48Z) - Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail [37.90622613373521]
我々はStereo Anywhereを紹介した。これは、幾何学的制約と単眼深度視覚基礎モデル(VFM)の頑健な先行性を組み合わせた新しいステレオマッチングフレームワークである。
合成専用学習モデルでは, ゼロショットの一般化が実現し, 既存の解よりも優れていた。
論文 参考訳(メタデータ) (2024-12-05T18:59:58Z) - Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-11-27T13:34:41Z) - Generalizable Novel-View Synthesis using a Stereo Camera [21.548844864282994]
本稿では,多視点ステレオカメラ画像を対象とした,最初の一般化可能なビュー合成手法を提案する。
高品質な幾何再構成のための新規ビュー合成にステレオマッチングを導入する。
実験により、StereoNeRFは、一般化可能なビュー合成において、従来のアプローチを超越していることが示された。
論文 参考訳(メタデータ) (2024-04-21T05:39:44Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline [25.4712469033627]
我々はOpenStereoと呼ばれるフレキシブルで効率的なステレオマッチングを開発する。
OpenStereoには10以上のネットワークモデルのトレーニングと推論コードが含まれている。
我々は, 立体マッチングにおける最近の展開の総合的分析とデコンストラクションを, 包括的アブレーション実験を通じて実施する。
私たちのStereoBaseは、SceneFlow、KITTI 2015、2012(Reflective)で第1位であり、すべてのメトリクスで最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-12-01T04:35:47Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - Differentiable Stereopsis: Meshes from multiple views using
differentiable rendering [72.25348629612782]
少ない入力ビューとノイズの多いカメラから形状とテクスチャを再構成する多視点ステレオ手法である微分ステレオシステムを提案する。
従来のステレオプシスと現代的な微分可能レンダリングを組み合わせて、さまざまなトポロジと形状を持つオブジェクトのテクスチャ化された3Dメッシュを予測するエンドツーエンドモデルを構築します。
論文 参考訳(メタデータ) (2021-10-11T17:59:40Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo
Matching [14.603116313499648]
本稿では,ピラミッド投票モジュール(PVM)と,OptStereoと呼ばれる新しいDCNNアーキテクチャからなる,堅牢で効果的な自己監督型ステレオマッチング手法を提案する。
具体的には、OptStereoは最初にマルチスケールのコストボリュームを構築し、その後、繰り返し単位を採用し、高分解能で不一致推定を反復的に更新します。
hkust-driveデータセット(大規模な合成ステレオデータセット)を、異なる照明条件と気象条件下で研究目的で収集した。
論文 参考訳(メタデータ) (2021-03-12T05:27:14Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Expanding Sparse Guidance for Stereo Matching [24.74333370941674]
局所特徴強調のためのRGB画像に関するスパースキューを拡大する新しい空間拡張手法を提案する。
提案手法は,最先端のステレオアルゴリズムを極めてスパースな手法で大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-24T06:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。