論文の概要: Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data
- arxiv url: http://arxiv.org/abs/2411.14053v1
- Date: Thu, 21 Nov 2024 11:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:02.797727
- Title: Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data
- Title(参考訳): Stereo Anything: 大規模な混合データによるステレオマッチングの統合
- Authors: Xianda Guo, Chenming Zhang, Youmin Zhang, Dujun Nie, Ruilin Wang, Wenzhao Zheng, Matteo Poggi, Long Chen,
- Abstract要約: 我々は、ロバストなステレオマッチングのためのソリューションであるStereoAnythingを紹介する。
ラベル付きステレオ画像を収集し,ラベル付きモノクロ画像から合成ステレオペアを生成することにより,データセットをスケールアップする。
5つの公開データセット上で,モデルのゼロショット能力を広範囲に評価した。
- 参考スコア(独自算出の注目度): 26.029499450825092
- License:
- Abstract: Stereo matching has been a pivotal component in 3D vision, aiming to find corresponding points between pairs of stereo images to recover depth information. In this work, we introduce StereoAnything, a highly practical solution for robust stereo matching. Rather than focusing on a specialized model, our goal is to develop a versatile foundational model capable of handling stereo images across diverse environments. To this end, we scale up the dataset by collecting labeled stereo images and generating synthetic stereo pairs from unlabeled monocular images. To further enrich the model's ability to generalize across different conditions, we introduce a novel synthetic dataset that complements existing data by adding variability in baselines, camera angles, and scene types. We extensively evaluate the zero-shot capabilities of our model on five public datasets, showcasing its impressive ability to generalize to new, unseen data. Code will be available at \url{https://github.com/XiandaGuo/OpenStereo}.
- Abstract(参考訳): ステレオマッチングは3次元視覚において重要な要素であり、ステレオ画像のペア間の対応点を見つけ、深度情報を復元することを目的としている。
本稿では,ロバストなステレオマッチングのための極めて実用的なソリューションであるStereoAnythingを紹介する。
専門的なモデルに焦点をあてるのではなく,多様な環境にまたがるステレオイメージを扱える汎用的な基礎モデルを開発することを目的としている。
この目的のために、ラベル付きステレオ画像を収集し、ラベル付き単分子画像から合成ステレオペアを生成することによりデータセットをスケールアップする。
モデルが様々な条件にまたがって一般化する能力をさらに強化するために,ベースライン,カメラアングル,シーンタイプに可変性を加えることで,既存のデータを補完する新しい合成データセットを導入する。
5つの公開データセット上で、我々のモデルのゼロショット能力を広範囲に評価し、新しい、目に見えないデータに一般化するその印象的な能力を示す。
コードは \url{https://github.com/XiandaGuo/OpenStereo} で入手できる。
関連論文リスト
- FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail [37.90622613373521]
我々はStereo Anywhereを紹介した。これは、幾何学的制約と単眼深度視覚基礎モデル(VFM)の頑健な先行性を組み合わせた新しいステレオマッチングフレームワークである。
合成専用学習モデルでは, ゼロショットの一般化が実現し, 既存の解よりも優れていた。
論文 参考訳(メタデータ) (2024-12-05T18:59:58Z) - Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-11-27T13:34:41Z) - Generalizable Novel-View Synthesis using a Stereo Camera [21.548844864282994]
本稿では,多視点ステレオカメラ画像を対象とした,最初の一般化可能なビュー合成手法を提案する。
高品質な幾何再構成のための新規ビュー合成にステレオマッチングを導入する。
実験により、StereoNeRFは、一般化可能なビュー合成において、従来のアプローチを超越していることが示された。
論文 参考訳(メタデータ) (2024-04-21T05:39:44Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline [25.4712469033627]
我々はOpenStereoと呼ばれるフレキシブルで効率的なステレオマッチングを開発する。
OpenStereoには10以上のネットワークモデルのトレーニングと推論コードが含まれている。
我々は, 立体マッチングにおける最近の展開の総合的分析とデコンストラクションを, 包括的アブレーション実験を通じて実施する。
私たちのStereoBaseは、SceneFlow、KITTI 2015、2012(Reflective)で第1位であり、すべてのメトリクスで最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-12-01T04:35:47Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - Differentiable Stereopsis: Meshes from multiple views using
differentiable rendering [72.25348629612782]
少ない入力ビューとノイズの多いカメラから形状とテクスチャを再構成する多視点ステレオ手法である微分ステレオシステムを提案する。
従来のステレオプシスと現代的な微分可能レンダリングを組み合わせて、さまざまなトポロジと形状を持つオブジェクトのテクスチャ化された3Dメッシュを予測するエンドツーエンドモデルを構築します。
論文 参考訳(メタデータ) (2021-10-11T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。