論文の概要: MV-RoMa: From Pairwise Matching into Multi-View Track Reconstruction
- arxiv url: http://arxiv.org/abs/2603.27542v1
- Date: Sun, 29 Mar 2026 06:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.016738
- Title: MV-RoMa: From Pairwise Matching into Multi-View Track Reconstruction
- Title(参考訳): MV-RoMa:Pairwise MatchingからMulti-View Track Restructionへ
- Authors: Jongmin Lee, Seungyeop Kang, Sungjoo Yoo,
- Abstract要約: MV-RoMaは、ソース画像から複数の可視目標への密対応を推定する多視点密マッチングモデルである。
我々は、モデルが一貫したマルチビュー対応を、構造移動のための高品質トラックとして統合する後処理戦略を提案する(SfM)。
MV-RoMaは既存のスパース法や密マッチング法よりも信頼性が高く、かなり密集した3次元再構成を行う。
- 参考スコア(独自算出の注目度): 14.717756921141364
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Establishing consistent correspondences across images is essential for 3D vision tasks such as structure-from-motion (SfM), yet most existing matchers operate in a pairwise manner, often producing fragmented and geometrically inconsistent tracks when their predictions are chained across views. We propose MV-RoMa, a multi-view dense matching model that jointly estimates dense correspondences from a source image to multiple co-visible targets. Specifically, we design an efficient model architecture which avoids high computational cost of full cross-attention for multi-view feature interaction: (i) multi-view encoder that leverages pair-wise matching results as a geometric prior, and (ii) multi-view matching refiner that refines correspondences using pixel-wise attention. Additionally, we propose a post-processing strategy that integrates our model's consistent multi-view correspondences as high-quality tracks for SfM. Across diverse and challenging benchmarks, MV-RoMa produces more reliable correspondences and substantially denser, more accurate 3D reconstructions than existing sparse and dense matching methods. Project page: https://icetea-cv.github.io/mv-roma/.
- Abstract(参考訳): 画像間で一貫した対応を確立することは、構造移動(SfM)のような3次元視覚タスクには不可欠であるが、既存のほとんどのマッカーはペア方式で動作し、予測がビューにチェーンされているときにしばしば断片的かつ幾何学的に一貫性のないトラックを生成する。
本稿では,ソース画像から複数の同一視対象への濃密対応を同時推定する多視点密マッチングモデルMV-RoMaを提案する。
具体的には,マルチビュー機能間相互作用のためのクロスアテンションの計算コストが高いことを回避した,効率的なモデルアーキテクチャを設計する。
(i)幾何先行としてペアワイドマッチング結果を利用するマルチビューエンコーダ
(II)画素ワイドアテンションを用いて対応を洗練するマルチビューマッチングリファインダ。
さらに、SfMの高品質トラックとして、モデルの一貫性のあるマルチビュー対応を統合する後処理戦略を提案する。
MV-RoMaは、多種多様で挑戦的なベンチマークで、既存のスパース法や密マッチング法よりも信頼性が高く、かなり高密度で高精度な3D再構成を生成する。
プロジェクトページ:https://icetea-cv.github.io/mv-roma/。
関連論文リスト
- COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation [58.47973015036709]
スパース多視点からの3次元ポーズ推定は、行動認識、スポーツ分析、人間とロボットの相互作用にとって重要な課題である。
ハイパーグラフ問題として多視点ポーズ対応マッチングを定式化する新しいフレームワークComposEを提案する。
COMPOSEは,従来の最適化手法よりも平均23%,自己教師付きエンドツーエンド学習手法より最大11%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-14T18:50:17Z) - 3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding [18.76513756741288]
現在のアプローチは主に2D画像空間におけるクロスタスク関係を捉えており、しばしば3D認識に欠ける非構造的特徴に繋がる。
MTLネットワークにおける幾何学的整合性として,ビュー間の相関,すなわちコスト容積を統合することで,この問題に対処することを提案する。
具体的には、タスク間で共有される軽量なクロスビューモジュール(CvM)を導入し、ビュー間で情報を交換し、クロスビューの相関を捉える。
論文 参考訳(メタデータ) (2025-11-25T18:59:34Z) - CoMatcher: Multi-View Collaborative Feature Matching [10.432708461699578]
CoMatcherは、異なるビューからの補完的なコンテキストキューを活用して、総合的な3Dシーン理解を形成する、深いマルチビューマーカである。
CoMatcher上に構築されたグループワイドフレームワークは,大規模マッチングタスクのクロスビュー関係を完全に活用する。
論文 参考訳(メタデータ) (2025-04-02T16:27:44Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。