論文の概要: Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM
- arxiv url: http://arxiv.org/abs/2511.16282v1
- Date: Thu, 20 Nov 2025 12:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.600973
- Title: Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM
- Title(参考訳): メモリ効率なセマンティックSLAMのためのVGGTを用いた時間的コヒーレントな3Dマップの構築
- Authors: Gergely Dinya, Péter Halász, András Lőrincz, Kristóf Karacs, Anna Gelencsér-Horváth,
- Abstract要約: 本稿では,VGGT(Vision Gated Generative Transformers)に基づくリアルタイムシーン理解フレームワークを提案する。
提案するパイプラインは、アシストナビゲーションを含むアプリケーションをサポートする、効率的でリアルタイムに近いパフォーマンスを実現するように設計されている。
- 参考スコア(独自算出の注目度): 0.13048920509133805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a fast, spatio-temporal scene understanding framework based on Vision Gated Generative Transformers (VGGT). The proposed pipeline is designed to enable efficient, close to real-time performance, supporting applications including assistive navigation. To achieve continuous updates of the 3D scene representation, we process the image flow with a sliding window, aligning submaps, thereby overcoming VGGT's high memory demands. We exploit the VGGT tracking head to aggregate 2D semantic instance masks into 3D objects. To allow for temporal consistency and richer contextual reasoning the system stores timestamps and instance-level identities, thereby enabling the detection of changes in the environment. We evaluate the approach on well-known benchmarks and custom datasets specifically designed for assistive navigation scenarios. The results demonstrate the applicability of the framework to real-world scenarios.
- Abstract(参考訳): 本稿では、VGGT(Vision Gated Generative Transformers)に基づく、高速かつ時空間的なシーン理解フレームワークを提案する。
提案するパイプラインは、アシストナビゲーションを含むアプリケーションをサポートする、効率的でリアルタイムに近いパフォーマンスを実現するように設計されている。
3Dシーン表現の連続的な更新を実現するため,画像フローをスライディングウインドウで処理し,サブマップをアライメントすることで,VGGTの高メモリ要求を克服する。
VGGTトラッキングヘッドを利用して、2Dセマンティック・インスタンス・マスクを3Dオブジェクトに集約する。
タイムスタンプとインスタンスレベルのアイデンティティを格納し、環境の変化を検出する。
補助ナビゲーションシナリオに特化して設計された、よく知られたベンチマークとカスタムデータセットに対するアプローチを評価する。
その結果,実世界のシナリオへのフレームワークの適用性を示した。
関連論文リスト
- 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - RAG-3DSG: Enhancing 3D Scene Graphs with Re-Shot Guided Retrieval-Augmented Generation [14.318014901625666]
Open-vocabulary 3D Scene Graph (3DSG) 生成は、構造化セマンティック表現を活用することで、操作やナビゲーションといったロボット工学におけるさまざまな下流タスクを強化することができる。
オープン語彙3DSG生成のための既存の作業は、オブジェクトレベルの認識精度と速度の両方が低い。
我々はRAG-3DSGを提案する。RAG(Retrieval-Augmented Generation)とRAG(Retrieval-Augmented Generation)は、信頼性の高い低不確実性オブジェクトを経由する。
論文 参考訳(メタデータ) (2026-01-15T08:15:01Z) - ChangingGrounding: 3D Visual Grounding in Changing Scenes [92.00984845186679]
現実世界のロボットは自然言語からオブジェクトをローカライズするが、周囲のシーンは変化し続けている。
既存の3Dビジュアルグラウンドティング(3DVG)手法のほとんどは、再構築された最新の点雲を前提としている。
エージェントが過去の観測をいかにうまく活用できるかを明示的に測定する最初のベンチマークであるChangeingGroundingを紹介します。
論文 参考訳(メタデータ) (2025-10-16T17:59:16Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images [8.271449021226417]
本稿では,オンラインで高速な3D SSG生成技術であるFROSS(Faster-than-Real-Time Online 3D Semantic Scene Graph Generation)を提案する。
このフレームワークは、正確で計算集約的なポイントクラウド処理への依存を取り除く。
実験により、FROSSは従来の3次元生成法よりもはるかに高速に動作しながら、優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-26T16:16:52Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
視覚に基づく3Dセマンティック占有予測は、LiDARベースのアプローチを好んで、ますます見落としている。
本研究では、時間的コヒーレントな3Dセマンティック占有度を予測するために設計されたトランスフォーマーアーキテクチャであるS2TPVFormerを紹介する。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。