論文の概要: TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction
- arxiv url: http://arxiv.org/abs/2512.02341v1
- Date: Tue, 02 Dec 2025 02:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.688189
- Title: TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction
- Title(参考訳): talOが3D Vision Foundationのモデルをグローバルに一貫したオンラインレコンストラクションへ
- Authors: Fengyi Zhang, Tianjun Zhang, Kasra Khosoussi, Zheng Zhang, Zi Huang, Yadan Luo,
- Abstract要約: 3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.46712611558817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D vision foundation models have shown strong generalization in reconstructing key 3D attributes from uncalibrated images through a single feed-forward pass. However, when deployed in online settings such as driving scenarios, predictions are made over temporal windows, making it non-trivial to maintain consistency across time. Recent strategies align consecutive predictions by solving global transformation, yet our analysis reveals their fundamental limitations in assumption validity, local alignment scope, and robustness under noisy geometry. In this work, we propose a higher-DOF and long-term alignment framework based on Thin Plate Spline, leveraging globally propagated control points to correct spatially varying inconsistencies. In addition, we adopt a point-agnostic submap registration design that is inherently robust to noisy geometry predictions. The proposed framework is fully plug-and-play, compatible with diverse 3D foundation models and camera configurations (e.g., monocular or surround-view). Extensive experiments demonstrate that our method consistently yields more coherent geometry and lower trajectory errors across multiple datasets, backbone models, and camera setups, highlighting its robustness and generality. Codes are publicly available at \href{https://github.com/Xian-Bei/TALO}{https://github.com/Xian-Bei/TALO}.
- Abstract(参考訳): 3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
しかし、運転シナリオなどのオンライン設定にデプロイされる場合、時間的ウィンドウ上で予測が行われるため、時間の経過とともに一貫性を維持することは簡単ではない。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,Tin Plate Splineに基づく高DOF・長期アライメントフレームワークを提案する。
さらに,本手法では,本質的にノイズの多い幾何学的予測に頑健な点非依存のサブマップ登録設計を採用する。
提案するフレームワークは完全にプラグアンドプレイで,多様な3Dファンデーションモデルやカメラ構成(モノクロ,サラウンドビューなど)と互換性がある。
本手法は,複数のデータセット,バックボーンモデル,カメラのセットアップにおいて,より一貫性のある形状と低軌道誤差を連続的に生成し,その堅牢性と汎用性を強調している。
コードは \href{https://github.com/Xian-Bei/TALO}{https://github.com/Xian-Bei/TALO} で公開されている。
関連論文リスト
- Fin3R: Fine-tuning Feed-forward 3D Reconstruction Models via Monocular Knowledge Distillation [16.22677555146353]
Fin3Rはフィードフォワード3次元再構成モデルのためのシンプルで効果的で汎用的な微調整法である。
DUSt3R, MASt3R, CUT3R, VGGT など幅広いモデルで本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-27T13:10:19Z) - Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Flexible 3D Lane Detection by Hierarchical Shape MatchingFlexible 3D Lane Detection by Hierarchical Shape Matching [29.038755629481035]
3次元車線検出は、様々な視覚条件、複雑な類型、厳密な精度要求のため、依然として未解決の問題である。
本稿では,点雲から3次元レーン線を正確に予測するために,エンドツーエンドのフレキシブルかつ階層的なレーン検出器を提案する。
論文 参考訳(メタデータ) (2024-08-13T19:04:23Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。