論文の概要: Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM
- arxiv url: http://arxiv.org/abs/2604.03092v1
- Date: Fri, 03 Apr 2026 15:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.505467
- Title: Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM
- Title(参考訳): Flash-Mono: フィードフォワード加速型ガウス型単分子SLAM
- Authors: Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding,
- Abstract要約: 本稿では,3つのコアモジュールからなるシステムであるFlash-Monoを紹介する。
マルチフレームコンテキストを活用するフィードフォワードパラダイムは、これらの課題に対処するために不可欠である。
ガウス属性を直接予測することにより、最適化に基づくGS-SLAMに必要なフレーム毎の負担を回避できる。
- 参考スコア(独自算出の注目度): 30.770651925808846
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Monocular 3D Gaussian Splatting SLAM suffers from critical limitations in time efficiency, geometric accuracy, and multi-view consistency. These issues stem from the time-consuming $\textit{Train-from-Scratch}$ optimization and the lack of inter-frame scale consistency from single-frame geometry priors. We contend that a feed-forward paradigm, leveraging multi-frame context to predict Gaussian attributes directly, is crucial for addressing these challenges. We present Flash-Mono, a system composed of three core modules: a feed-forward prediction frontend, a 2D Gaussian Splatting mapping backend, and an efficient hidden-state-based loop closure module. We trained a recurrent feed-forward frontend model that progressively aggregates multi-frame visual features into a hidden state via cross attention and jointly predicts camera poses and per-pixel Gaussian properties. By directly predicting Gaussian attributes, our method bypasses the burdensome per-frame optimization required in optimization-based GS-SLAM, achieving a $\textbf{10x}$ speedup while ensuring high-quality rendering. The power of our recurrent architecture extends beyond efficient prediction. The hidden states act as compact submap descriptors, facilitating efficient loop closure and global $\mathrm{Sim}(3)$ optimization to mitigate the long-standing challenge of drift. For enhanced geometric fidelity, we replace conventional 3D Gaussian ellipsoids with 2D Gaussian surfels. Extensive experiments demonstrate that Flash-Mono achieves state-of-the-art performance in both tracking and mapping quality, highlighting its potential for embodied perception and real-time reconstruction applications. Project page: https://victkk.github.io/flash-mono.
- Abstract(参考訳): 単眼3DガウススプラッティングSLAMは、時間効率、幾何精度、多視点整合性の限界に悩まされている。
これらの問題は、費やした$\textit{Train-from-Scratch}$最適化と、単一フレームの幾何学的前提からのフレーム間スケールの一貫性の欠如に起因しています。
ガウス属性を直接予測するためにマルチフレームコンテキストを活用するフィードフォワードパラダイムが,これらの課題に対処するために不可欠である,と我々は主張する。
本稿では,フィードフォワード予測フロントエンドと2次元ガウススプラッティングマッピングバックエンド,効率的な隠れ状態ベースのループクロージャモジュールの3つのコアモジュールからなるシステムであるFlash-Monoを紹介する。
我々は,複数フレームの視覚的特徴をクロスアテンションによって徐々に隠蔽状態に集約するフィードフォワードフロントエンドモデルを訓練し,カメラポーズと画素ごとのガウス特性を共同で予測した。
ガウス属性を直接予測することにより、最適化ベースのGS-SLAMに必要なフレーム毎の負担を回避し、高品質なレンダリングを確保しつつ、$\textbf{10x}$の高速化を実現した。
リカレントアーキテクチャのパワーは、効率的な予測以上のものになります。
隠れた状態はコンパクトなサブマップ記述子として機能し、効率的なループクロージャと大域的な$\mathrm{Sim}(3)$最適化を促進し、ドリフトの長年の課題を軽減する。
幾何学的忠実度を高めるため、従来の3次元ガウス楕円体を2次元ガウス波に置き換える。
広範囲にわたる実験により、Flash-Monoはトラッキングとマッピングの品質の両方において最先端のパフォーマンスを達成し、認識の具体化とリアルタイム再構築アプリケーションの可能性を強調している。
プロジェクトページ: https://victkk.github.io/flash-mono
関連論文リスト
- iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion [62.09575122593993]
iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。
NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-11-18T05:22:22Z) - Compact 3D Gaussian Splatting For Dense Visual SLAM [32.37035997240123]
本稿では,ガウス楕円体の数とパラメータサイズを削減できるコンパクトな3次元ガウス格子SLAMシステムを提案する。
余剰楕円体を減らすために、スライドウィンドウベースのマスキング戦略が最初に提案されている。
本手法は,シーン表現の最先端(SOTA)品質を維持しつつ,高速なトレーニングとレンダリングの高速化を実現する。
論文 参考訳(メタデータ) (2024-03-17T15:41:35Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。