論文の概要: S-MUSt3R: Sliding Multi-view 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2602.04517v1
- Date: Wed, 04 Feb 2026 13:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.53192
- Title: S-MUSt3R: Sliding Multi-view 3D Reconstruction
- Title(参考訳): S-MUSt3R:スライディング多視点3D再構成
- Authors: Leonid Antsfeld, Boris Chidlovskii, Yohann Cabon, Vincent Leroy, Jerome Revaud,
- Abstract要約: 本研究はS-MUSt3Rを提案する。S-MUSt3Rは単分子3次元再構成のための基礎モデルの限界を拡張するシンプルで効率的なパイプラインである。
我々は,S-MUSt3Rが長いRGBシーケンス上で正常に動作し,高精度で一貫した3D再構成を実現することを示す。
- 参考スコア(独自算出の注目度): 17.018626984951823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent paradigm shift in 3D vision led to the rise of foundation models with remarkable capabilities in 3D perception from uncalibrated images. However, extending these models to large-scale RGB stream 3D reconstruction remains challenging due to memory limitations. This work proposes S-MUSt3R, a simple and efficient pipeline that extends the limits of foundation models for monocular 3D reconstruction. Our approach addresses the scalability bottleneck of foundation models through a simple strategy of sequence segmentation followed by segment alignment and lightweight loop closure optimization. Without model retraining, we benefit from remarkable 3D reconstruction capacities of MUSt3R model and achieve trajectory and reconstruction performance comparable to traditional methods with more complex architecture. We evaluate S-MUSt3R on TUM, 7-Scenes and proprietary robot navigation datasets and show that S-MUSt3R runs successfully on long RGB sequences and produces accurate and consistent 3D reconstruction. Our results highlight the potential of leveraging the MUSt3R model for scalable monocular 3D scene in real-world settings, with an important advantage of making predictions directly in the metric space.
- Abstract(参考訳): 近年の3次元視覚のパラダイムシフトは、未校正画像からの3次元知覚に顕著な能力を持つ基礎モデルの台頭につながった。
しかし、これらのモデルを大規模RGBストリーム3D再構成に拡張することは、メモリ制限のため、依然として困難である。
本研究はS-MUSt3Rを提案する。S-MUSt3Rは単分子3次元再構成のための基礎モデルの限界を拡張するシンプルで効率的なパイプラインである。
提案手法は,シーケンスセグメンテーションの簡単な戦略により基礎モデルのスケーラビリティボトルネックに対処し,次にセグメントアライメントと軽量ループクロージャ最適化を行う。
MUSt3Rモデルの顕著な3次元再構成能力の恩恵を受け,より複雑な構造を持つ従来の手法に匹敵する軌道および再構成性能を実現する。
我々は,TUM上のS-MUSt3R,7-Scenesおよびプロプライエタリなロボットナビゲーションデータセットを評価し,S-MUSt3Rが長いRGBシーケンス上で正常に動作し,正確で一貫した3D再構成を実現することを示す。
本研究は,MUSt3Rモデルを実世界におけるスケーラブルなモノクロ3Dシーンに活用する可能性を強調した。
関連論文リスト
- KaoLRM: Repurposing Pre-trained Large Reconstruction Models for Parametric 3D Face Reconstruction [51.67605823241639]
KaoLRMは、一視点画像からパラメトリックな3次元顔再構成を行うために、Large Restruction Model (LRM)の学習前を再度ターゲットする。
制御されたベンチマークと内部ベンチマークの両方の実験により、KaoLRMはより優れた再構成精度とクロスビュー整合性を実現することが示された。
論文 参考訳(メタデータ) (2026-01-19T05:36:59Z) - AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend [18.645700170943975]
AMB3Rは、計量スケールで密集した3次元再構成のためのフィードフォワードモデルである。
AMB3Rは運動から非平衡視覚計測(オンライン)や大規模構造へシームレスに拡張可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T14:23:04Z) - MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Regist3R: Incremental Registration with Stereo Foundation Model [22.636140424781455]
コンピュータビジョンの分野では、マルチビュー3D再構成は不可欠だが難しい問題である。
本稿では,効率的かつスケーラブルな漸進的再構築に適した新しいステレオ基礎モデルであるRegist3Rを提案する。
カメラポーズ推定と3次元再構成のための公開データセット上でRegist3Rを評価する。
論文 参考訳(メタデータ) (2025-04-16T02:46:53Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.34221167200259]
従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文 参考訳(メタデータ) (2025-01-16T08:00:17Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。