論文の概要: MR.ScaleMaster: Scale-Consistent Collaborative Mapping from Crowd-Sourced Monocular Videos
- arxiv url: http://arxiv.org/abs/2604.11372v3
- Date: Wed, 15 Apr 2026 01:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.440358
- Title: MR.ScaleMaster: Scale-Consistent Collaborative Mapping from Crowd-Sourced Monocular Videos
- Title(参考訳): MR.ScaleMaster: クラウドソースモノクロビデオからのスケール一貫性のあるコラボレーションマッピング
- Authors: Hyoseok Ju, Giseop Kim,
- Abstract要約: 単眼カメラによるクラウドソースの協調マッピングは、特殊なセンサーを使わずにスケーラブルな3D再構成を実現する。
本稿では,クラウドソースモノクロビデオの協調マッピングシステムMR$.$ScaleMasterを紹介する。
- 参考スコア(独自算出の注目度): 3.4849238378361345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd-sourced cooperative mapping from monocular cameras promises scalable 3D reconstruction without specialized sensors, yet remains hindered by two scale-specific failure modes: abrupt scale collapse from false-positive loop closures in repetitive environments, and gradual scale drift over long trajectories and per-robot scale ambiguity that prevent direct multi-session fusion. We present MR$.$ScaleMaster, a cooperative mapping system for crowd-sourced monocular videos that addresses both failure modes. MR$.$ScaleMaster introduces three key mechanisms. First, a Scale Collapse Alarm rejects spurious loop closures before they corrupt the pose graph. Second, a Sim(3) anchor node formulation generalizes the classical SE(3) framework to explicitly estimate per-session scale, resolving per-robot scale ambiguity and enforcing global scale consistency. Third, a modular, open-source, plug-and-play interface enables any monocular reconstruction model to integrate without backend modification. On KITTI sequences with up to 15 agents, the Sim(3) formulation achieves a 7.2x ATE reduction over the SE(3) baseline, and the alarm rejects all false-positive loops while preserving every valid constraint. We further demonstrate heterogeneous multi-robot dense mapping fusing MASt3R-SLAM, pi3, and VGGT-SLAM 2.0 within a single unified map.
- Abstract(参考訳): 単眼カメラからのクラウドソースによる協調マッピングは、特殊なセンサーを使わずにスケーラブルな3D再構成を実現するが、しかしながら、2つのスケール固有の障害モードによって妨げられている。
MR$を提示します。
$ScaleMasterは、クラウドソースによるモノクロビデオの協調マッピングシステムで、両方の障害モードに対処する。
MR$。
$ScaleMasterは3つの重要なメカニズムを導入している。
まず、スケール崩壊警報(Scale Collapse Alarm)は、ポーズグラフを破損する前に急激なループ閉鎖を拒否する。
第二に、Sim(3)アンカーノードの定式化は、古典的なSE(3)フレームワークを一般化し、セッション単位のスケールを明示的に推定し、ロボット単位のスケールの曖昧さを解消し、グローバルスケールの一貫性を強制する。
第三に、モジュラーでオープンソースのプラグイン・アンド・プレイインターフェースにより、任意のモノクル再構成モデルがバックエンドの変更なしに統合できる。
最大15個のエージェントを持つKITTI配列では、Sim(3)の定式化はSE(3)のベースラインを7.2倍削減し、アラームはすべての有効な制約を保ちながら全ての偽陽性ループを拒否する。
さらに,MASt3R-SLAM, pi3, VGGT-SLAM 2.0を1つの統一写像に融合した異種マルチロボットの高密度マッピングを示す。
関連論文リスト
- HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with Occlusion Handling [19.747618899243555]
我々は、ポータビリティと幾何学的測定特性の両方を提供する短基線双眼設定に照準を合わせました。
両眼の基準線が短くなるにつれて, 第一に, 2次元誤差に対する3次元再構成の堅牢性は低下する。
本稿では,2次元キーポイントの表示一貫性を改善し,3次元ロバスト性を高めるためのステレオコキーポイント推定モジュールを提案する。
論文 参考訳(メタデータ) (2023-11-24T01:15:57Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online
Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。
オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。
動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文 参考訳(メタデータ) (2021-11-07T07:23:24Z) - 3D Pose Detection in Videos: Focusing on Occlusion [0.4588028371034406]
我々は,映像中の隠蔽型3Dポーズ検出のための既存の手法を構築した。
我々は,2次元ポーズ予測を生成するために,積み重ねられた時間ガラスネットワークからなる2段階アーキテクチャを実装した。
閉鎖関節によるポーズの予測を容易にするため,シリンダーマンモデルの直感的な一般化を導入する。
論文 参考訳(メタデータ) (2020-06-24T07:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。