論文の概要: SceneVGGT: VGGT-based online 3D semantic SLAM for indoor scene understanding and navigation
- arxiv url: http://arxiv.org/abs/2602.15899v2
- Date: Thu, 19 Feb 2026 10:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.524781
- Title: SceneVGGT: VGGT-based online 3D semantic SLAM for indoor scene understanding and navigation
- Title(参考訳): SceneVGGT:VGGTベースの屋内シーン理解とナビゲーションのためのオンライン3DセマンティックSLAM
- Authors: Anna Gelencsér-Horváth, Gergely Dinya, Dorka Boglárka Erős, Péter Halász, Islam Muhammad Muqsit, Kristóf Karacs,
- Abstract要約: SceneVGGTはSLAMとセマンティックマッピングを組み合わせた3Dシーン理解フレームワークである。
VGGTをベースとして構築された本手法は,スライドウインドウパイプラインを用いて,長いビデオストリームにスケールする。
- 参考スコア(独自算出の注目度): 0.12314765641075437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SceneVGGT, a spatio-temporal 3D scene understanding framework that combines SLAM with semantic mapping for autonomous and assistive navigation. Built on VGGT, our method scales to long video streams via a sliding-window pipeline. We align local submaps using camera-pose transformations, enabling memory- and speed-efficient mapping while preserving geometric consistency. Semantics are lifted from 2D instance masks to 3D objects using the VGGT tracking head, maintaining temporally coherent identities for change detection. As a proof of concept, object locations are projected onto an estimated floor plane for assistive navigation. The pipeline's GPU memory usage remains under 17 GB, irrespectively of the length of the input sequence and achieves competitive point-cloud performance on the ScanNet++ benchmark. Overall, SceneVGGT ensures robust semantic identification and is fast enough to support interactive assistive navigation with audio feedback.
- Abstract(参考訳): 本稿では、SLAMとセマンティックマッピングを組み合わせた時空間3Dシーン理解フレームワークであるSceneVGGTを提案する。
VGGTをベースとして構築された本手法は,スライドウインドウパイプラインを用いて,長いビデオストリームにスケールする。
局所部分写像をカメラ配置変換を用いて整列し、幾何学的整合性を維持しながらメモリ効率と速度効率のマッピングを可能にする。
セマンティックは、VGGTトラッキングヘッドを使用して2Dインスタンスマスクから3Dオブジェクトに持ち上げられ、変化検出のための時間的コヒーレントなアイデンティティが維持される。
概念実証として、物体の位置を推定床面に投影し、補助航法を行う。
パイプラインのGPUメモリ使用量は、入力シーケンスの長さに関わらず17GB以下であり、ScanNet++ベンチマークで競合するポイントクラウドパフォーマンスを達成する。
全体として、SceneVGGTは堅牢なセマンティック識別を保証し、音声フィードバックによるインタラクティブな補助ナビゲーションをサポートするのに十分な速度である。
関連論文リスト
- OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms [33.40889181799252]
言語誘導型エンボディナビゲーションでは、エージェントがオブジェクト参照命令を解釈し、複数の部屋を探索し、参照されたターゲットをローカライズし、それに対する信頼できる動きを実行する必要がある。
OmniVLNは、全方位3次元知覚とトークン効率の高い階層的推論を、空中と地上の両方で組み合わせたゼロショット視覚言語ナビゲーションフレームワークである。
実験により、提案した階層インタフェースは空間参照精度を77.27%から93.18%に改善し、マルチルームの乱雑な設定で累積的なプロンプトトークンを61.7%削減し、フラットで最大11.68%のナビゲーション成功率向上を実現した。
論文 参考訳(メタデータ) (2026-03-18T04:26:30Z) - EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding [66.80528512321106]
EmbodiedSplatは、オープン語彙シーン理解のためのオンラインフィードフォワード3DGSである。
目的は,1)300以上のストリーミング画像からシーン全体のセマンティック埋め込み3DGSをオンライン的に再構成すること,2)フィードフォワードデザインの新規シーンに高度に一般化することである。
論文 参考訳(メタデータ) (2026-03-04T16:40:41Z) - MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory [31.442399437713547]
MG-Navは、ゼロショットビジュアルナビゲーションのためのデュアルスケールフレームワークである。
グローバルメモリ誘導計画と局所的幾何学的制御を統一する。
論文 参考訳(メタデータ) (2025-11-27T16:43:21Z) - Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM [0.13048920509133805]
本稿では,VGGT(Vision Gated Generative Transformers)に基づくリアルタイムシーン理解フレームワークを提案する。
提案するパイプラインは、アシストナビゲーションを含むアプリケーションをサポートする、効率的でリアルタイムに近いパフォーマンスを実現するように設計されている。
論文 参考訳(メタデータ) (2025-11-20T12:03:28Z) - Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。
我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-03-20T16:41:50Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。