論文の概要: RESfM: Robust Deep Equivariant Structure from Motion
- arxiv url: http://arxiv.org/abs/2404.14280v2
- Date: Thu, 21 Aug 2025 11:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:45.868883
- Title: RESfM: Robust Deep Equivariant Structure from Motion
- Title(参考訳): RESfM:動きからのロバストな深部等変構造
- Authors: Fadi Khatib, Yoni Kasten, Dror Moran, Meirav Galun, Ronen Basri,
- Abstract要約: マルチビュー・ストラクチャー・オブ・モーション(Multiview Structure from Motion)は、コンピュータビジョンの基本的な問題である。
本稿では,複数ビューのinlier/outlier分類モジュールを追加することで,外乱処理に適したアーキテクチャを提案する。
実験により,本手法が現実的な環境でうまく適用可能であることが示された。
- 参考スコア(独自算出の注目度): 20.45039318017998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiview Structure from Motion is a fundamental and challenging computer vision problem. A recent deep-based approach utilized matrix equivariant architectures for simultaneous recovery of camera pose and 3D scene structure from large image collections. That work, however, made the unrealistic assumption that the point tracks given as input are almost clean of outliers. Here, we propose an architecture suited to dealing with outliers by adding a multiview inlier/outlier classification module that respects the model equivariance and by utilizing a robust bundle adjustment step. Experiments demonstrate that our method can be applied successfully in realistic settings that include large image collections and point tracks extracted with common heuristics that include many outliers, achieving state-of-the-art accuracies in almost all runs, superior to existing deep-based methods and on-par with leading classical (non-deep) sequential and global methods.
- Abstract(参考訳): マルチビュー・ストラクチャー・オブ・モーション(Multiview Structure from Motion)は、コンピュータビジョンの基本的な問題である。
最近のディープベースアプローチでは、大規模な画像コレクションからカメラポーズと3次元シーン構造の同時回復に行列同変アーキテクチャを用いる。
しかし、この作業は入力として与えられた点線がほぼ外れ値である、という非現実的な仮定を導いた。
本稿では,モデル等価性を尊重するマルチビュー・インレーラ/アウトレーラ分類モジュールを追加し,ロバストなバンドル調整ステップを活用することで,アウトレーヤを扱うのに適したアーキテクチャを提案する。
実験により,多くの外れ値を含む共通のヒューリスティックで抽出された画像コレクションやポイントトラックを含む現実的な状況において,提案手法をうまく適用できること,最先端の精度をほぼすべての実行で達成できること,従来のディープベース手法よりも優れていること,先進の古典的(非ディープ)シーケンシャル手法とグローバル手法との整合性が示された。
関連論文リスト
- A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - MASt3R-SfM: a Fully-Integrated Solution for Unconstrained Structure-from-Motion [12.602510002753815]
我々は最近リリースされた3Dビジョンのための基礎モデルを構築し、局所的な3D再構成と正確なマッチングを堅牢に生成できる。
グローバル座標系における局所的再構成を正確に調整するための低メモリ方式を提案する。
私たちの新しいSfMパイプラインはシンプルで、スケーラブルで、高速で、本当に制約を受けていない。
論文 参考訳(メタデータ) (2024-09-27T21:29:58Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。