論文の概要: MVSAnywhere: Zero-Shot Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2503.22430v1
- Date: Fri, 28 Mar 2025 13:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:20.544484
- Title: MVSAnywhere: Zero-Shot Multi-View Stereo
- Title(参考訳): MVSAnywhere:ゼロショットマルチビューステレオ
- Authors: Sergio Izquierdo, Mohamed Sayed, Michael Firman, Guillermo Garcia-Hernando, Daniyar Turmukhambetov, Javier Civera, Oisin Mac Aodha, Gabriel Brostow, Jamie Watson,
- Abstract要約: MVSAは、さまざまなドメインと深さ範囲をまたいで一般化することで、Anywhereを動作させることを目指している。
本稿では,ロバスト多視点深度ベンチマークを用いて最先端ゼロショット深度推定を行う。
- 参考スコア(独自算出の注目度): 27.163504437275677
- License:
- Abstract: Computing accurate depth from multiple views is a fundamental and longstanding challenge in computer vision. However, most existing approaches do not generalize well across different domains and scene types (e.g. indoor vs. outdoor). Training a general-purpose multi-view stereo model is challenging and raises several questions, e.g. how to best make use of transformer-based architectures, how to incorporate additional metadata when there is a variable number of input views, and how to estimate the range of valid depths which can vary considerably across different scenes and is typically not known a priori? To address these issues, we introduce MVSA, a novel and versatile Multi-View Stereo architecture that aims to work Anywhere by generalizing across diverse domains and depth ranges. MVSA combines monocular and multi-view cues with an adaptive cost volume to deal with scale-related issues. We demonstrate state-of-the-art zero-shot depth estimation on the Robust Multi-View Depth Benchmark, surpassing existing multi-view stereo and monocular baselines.
- Abstract(参考訳): 複数の視点から正確な深度を計算することは、コンピュータビジョンの基本的な課題である。
しかし、既存のアプローチのほとんどは、異なるドメインやシーンタイプ(例えば屋内対屋外)でうまく一般化していない。
汎用マルチビューステレオモデルのトレーニングは困難で、例えば、トランスフォーマーベースのアーキテクチャをいかに最大限に活用するか、入力ビューの可変数の場合に追加メタデータを組み込む方法、異なるシーンで異なる範囲の有効な深さを見積もる方法など、いくつかの疑問が提起されている。
これらの問題に対処するため、MVSAは、多様なドメインと奥行き範囲をまたいだ一般化により、どこでも動作することを目的とした、斬新で汎用的なマルチビューステレオアーキテクチャである。
MVSAは、単眼とマルチビューのキューと適応的なコストボリュームを組み合わせることで、スケール関連の問題に対処する。
本稿では、ロバスト多視点深度ベンチマークにおいて、既存の多視点ステレオおよび単眼ベースラインを上回り、最先端のゼロショット深度推定を実証する。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - A Benchmark and a Baseline for Robust Multi-view Depth Estimation [36.02034260946296]
多視点深度推定のためのディープラーニングアプローチは、ビデオからの深度推定または多視点ステレオ設定に使用される。
本稿では,公開データセット上に構築されたRobust Multi-View Depth Benchmarkを紹介する。
この設定では、最近のアプローチはデータセットをまたいだ一般化はしない。
本稿では,既存コンポーネント上に構築されている新しいスケール拡張手法を用いて,マルチビュー深度推定のためのロバストMVDベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-09-13T17:44:16Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。