論文の概要: Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data
- arxiv url: http://arxiv.org/abs/2411.14053v1
- Date: Thu, 21 Nov 2024 11:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:02.797727
- Title: Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data
- Title(参考訳): Stereo Anything: 大規模な混合データによるステレオマッチングの統合
- Authors: Xianda Guo, Chenming Zhang, Youmin Zhang, Dujun Nie, Ruilin Wang, Wenzhao Zheng, Matteo Poggi, Long Chen,
- Abstract要約: 我々は、ロバストなステレオマッチングのためのソリューションであるStereoAnythingを紹介する。
ラベル付きステレオ画像を収集し,ラベル付きモノクロ画像から合成ステレオペアを生成することにより,データセットをスケールアップする。
5つの公開データセット上で,モデルのゼロショット能力を広範囲に評価した。
- 参考スコア(独自算出の注目度): 26.029499450825092
- License:
- Abstract: Stereo matching has been a pivotal component in 3D vision, aiming to find corresponding points between pairs of stereo images to recover depth information. In this work, we introduce StereoAnything, a highly practical solution for robust stereo matching. Rather than focusing on a specialized model, our goal is to develop a versatile foundational model capable of handling stereo images across diverse environments. To this end, we scale up the dataset by collecting labeled stereo images and generating synthetic stereo pairs from unlabeled monocular images. To further enrich the model's ability to generalize across different conditions, we introduce a novel synthetic dataset that complements existing data by adding variability in baselines, camera angles, and scene types. We extensively evaluate the zero-shot capabilities of our model on five public datasets, showcasing its impressive ability to generalize to new, unseen data. Code will be available at \url{https://github.com/XiandaGuo/OpenStereo}.
- Abstract(参考訳): ステレオマッチングは3次元視覚において重要な要素であり、ステレオ画像のペア間の対応点を見つけ、深度情報を復元することを目的としている。
本稿では,ロバストなステレオマッチングのための極めて実用的なソリューションであるStereoAnythingを紹介する。
専門的なモデルに焦点をあてるのではなく,多様な環境にまたがるステレオイメージを扱える汎用的な基礎モデルを開発することを目的としている。
この目的のために、ラベル付きステレオ画像を収集し、ラベル付き単分子画像から合成ステレオペアを生成することによりデータセットをスケールアップする。
モデルが様々な条件にまたがって一般化する能力をさらに強化するために,ベースライン,カメラアングル,シーンタイプに可変性を加えることで,既存のデータを補完する新しい合成データセットを導入する。
5つの公開データセット上で、我々のモデルのゼロショット能力を広範囲に評価し、新しい、目に見えないデータに一般化するその印象的な能力を示す。
コードは \url{https://github.com/XiandaGuo/OpenStereo} で入手できる。
関連論文リスト
- Generalizable Novel-View Synthesis using a Stereo Camera [21.548844864282994]
本稿では,多視点ステレオカメラ画像を対象とした,最初の一般化可能なビュー合成手法を提案する。
高品質な幾何再構成のための新規ビュー合成にステレオマッチングを導入する。
実験により、StereoNeRFは、一般化可能なビュー合成において、従来のアプローチを超越していることが示された。
論文 参考訳(メタデータ) (2024-04-21T05:39:44Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline [25.4712469033627]
我々はOpenStereoと呼ばれるフレキシブルで効率的なステレオマッチングを開発する。
OpenStereoには10以上のネットワークモデルのトレーニングと推論コードが含まれている。
我々は, 立体マッチングにおける最近の展開の総合的分析とデコンストラクションを, 包括的アブレーション実験を通じて実施する。
私たちのStereoBaseは、SceneFlow、KITTI 2015、2012(Reflective)で第1位であり、すべてのメトリクスで最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-12-01T04:35:47Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - Differentiable Stereopsis: Meshes from multiple views using
differentiable rendering [72.25348629612782]
少ない入力ビューとノイズの多いカメラから形状とテクスチャを再構成する多視点ステレオ手法である微分ステレオシステムを提案する。
従来のステレオプシスと現代的な微分可能レンダリングを組み合わせて、さまざまなトポロジと形状を持つオブジェクトのテクスチャ化された3Dメッシュを予測するエンドツーエンドモデルを構築します。
論文 参考訳(メタデータ) (2021-10-11T17:59:40Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo
Matching [14.603116313499648]
本稿では,ピラミッド投票モジュール(PVM)と,OptStereoと呼ばれる新しいDCNNアーキテクチャからなる,堅牢で効果的な自己監督型ステレオマッチング手法を提案する。
具体的には、OptStereoは最初にマルチスケールのコストボリュームを構築し、その後、繰り返し単位を採用し、高分解能で不一致推定を反復的に更新します。
hkust-driveデータセット(大規模な合成ステレオデータセット)を、異なる照明条件と気象条件下で研究目的で収集した。
論文 参考訳(メタデータ) (2021-03-12T05:27:14Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Expanding Sparse Guidance for Stereo Matching [24.74333370941674]
局所特徴強調のためのRGB画像に関するスパースキューを拡大する新しい空間拡張手法を提案する。
提案手法は,最先端のステレオアルゴリズムを極めてスパースな手法で大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-24T06:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。