論文の概要: LatentAM: Real-Time, Large-Scale Latent Gaussian Attention Mapping via Online Dictionary Learning
- arxiv url: http://arxiv.org/abs/2602.12314v1
- Date: Thu, 12 Feb 2026 17:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.709514
- Title: LatentAM: Real-Time, Large-Scale Latent Gaussian Attention Mapping via Online Dictionary Learning
- Title(参考訳): LatentAM:オンライン辞書学習によるリアルタイム,大規模遅延ガウスアテンションマッピング
- Authors: Junwoon Lee, Yulun Tian,
- Abstract要約: LatentAMは、オープン語彙ロボット知覚のためのストリーミングRGB-D観測から潜在機能マップを構築する。
本稿では,モデルに依存しない,事前学習のないオンライン辞書学習手法を提案する。
公開ベンチマークと大規模なカスタムデータセットの実験では、LatentAMが機能再構築の忠実性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 1.9229388624311596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LatentAM, an online 3D Gaussian Splatting (3DGS) mapping framework that builds scalable latent feature maps from streaming RGB-D observations for open-vocabulary robotic perception. Instead of distilling high-dimensional Vision-Language Model (VLM) embeddings using model-specific decoders, LatentAM proposes an online dictionary learning approach that is both model-agnostic and pretraining-free, enabling plug-and-play integration with different VLMs at test time. Specifically, our approach associates each Gaussian primitive with a compact query vector that can be converted into approximate VLM embeddings using an attention mechanism with a learnable dictionary. The dictionary is initialized efficiently from streaming observations and optimized online to adapt to evolving scene semantics under trust-region regularization. To scale to long trajectories and large environments, we further propose an efficient map management strategy based on voxel hashing, where optimization is restricted to an active local map on the GPU, while the global map is stored and indexed on the CPU to maintain bounded GPU memory usage. Experiments on public benchmarks and a large-scale custom dataset demonstrate that LatentAM attains significantly better feature reconstruction fidelity compared to state-of-the-art methods, while achieving near-real-time speed (12-35 FPS) on the evaluated datasets. Our project page is at: https://junwoonlee.github.io/projects/LatentAM
- Abstract(参考訳): オープン語彙ロボット知覚のためのストリーミングRGB-D観測からスケーラブルな潜在機能マップを構築するオンライン3Dガウススプラッティング(3DGS)マッピングフレームワークであるLatentAMを紹介した。
モデル固有のデコーダを用いて高次元視覚言語モデル(VLM)埋め込みを蒸留する代わりに、LatentAMは、モデルに依存しない、事前学習のないオンライン辞書学習アプローチを提案し、テスト時に異なるVLMとプラグイン・アンド・プレイの統合を可能にする。
具体的には,ガウスプリミティブとコンパクトなクエリベクトルを関連付け,学習可能な辞書を用いた注意機構を用いて,近似的なVLM埋め込みに変換する。
この辞書は、ストリーミング観測から効率的に初期化され、信頼領域正規化の下で進化するシーンセマンティクスに適応するようにオンラインで最適化されている。
さらに,GPU上のアクティブローカルマップに最適化を制限し,グローバルマップをCPU上に格納,インデックス化してバウンダリ付きGPUメモリ使用率を維持する,ボクセルハッシュに基づく効率的なマップ管理戦略を提案する。
公開ベンチマークと大規模なカスタムデータセットの実験では、LatentAMは最先端の手法に比べて、機能再構築の忠実度が大幅に向上し、評価されたデータセット上でほぼリアルタイムの速度(12-35 FPS)を達成した。
私たちのプロジェクトページは以下の通りです。
関連論文リスト
- Loopy-SLAM: Dense Neural SLAM with Loop Closures [53.11936461015725]
ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。
我々は,データ駆動のポイントベースサブマップ生成手法を用いてフレーム・ツー・モデル追跡を行い,グローバルな位置認識を行うことで,オンラインのループクロージャをトリガーする。
合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:32Z) - HI-SLAM: Monocular Real-time Dense Mapping with Hybrid Implicit Fields [11.627951040865568]
最近のニューラルマッピングフレームワークは有望な結果を示しているが、RGB-Dやポーズ入力に依存している。
我々のアプローチは、高密度SLAMとニューラル暗黙の場を統合する。
ニューラルネットワークの効率的な構築には,マルチレゾリューショングリッド符号化と符号付き距離関数を用いる。
論文 参考訳(メタデータ) (2023-10-07T12:26:56Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized
Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。
我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。
本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文 参考訳(メタデータ) (2023-07-18T06:07:25Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。