Fugu-MT 論文翻訳(概要): Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM

論文の概要: Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM

arxiv url: http://arxiv.org/abs/2511.16282v1
Date: Thu, 20 Nov 2025 12:03:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-21 17:08:52.600973
Title: Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM
Title（参考訳）: メモリ効率なセマンティックSLAMのためのVGGTを用いた時間的コヒーレントな3Dマップの構築
Authors: Gergely Dinya, Péter Halász, András Lőrincz, Kristóf Karacs, Anna Gelencsér-Horváth,
Abstract要約: 本稿では,VGGT(Vision Gated Generative Transformers)に基づくリアルタイムシーン理解フレームワークを提案する。提案するパイプラインは、アシストナビゲーションを含むアプリケーションをサポートする、効率的でリアルタイムに近いパフォーマンスを実現するように設計されている。
参考スコア（独自算出の注目度）: 0.13048920509133805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a fast, spatio-temporal scene understanding framework based on Vision Gated Generative Transformers (VGGT). The proposed pipeline is designed to enable efficient, close to real-time performance, supporting applications including assistive navigation. To achieve continuous updates of the 3D scene representation, we process the image flow with a sliding window, aligning submaps, thereby overcoming VGGT's high memory demands. We exploit the VGGT tracking head to aggregate 2D semantic instance masks into 3D objects. To allow for temporal consistency and richer contextual reasoning the system stores timestamps and instance-level identities, thereby enabling the detection of changes in the environment. We evaluate the approach on well-known benchmarks and custom datasets specifically designed for assistive navigation scenarios. The results demonstrate the applicability of the framework to real-world scenarios.
Abstract（参考訳）: 本稿では、VGGT(Vision Gated Generative Transformers)に基づく、高速かつ時空間的なシーン理解フレームワークを提案する。提案するパイプラインは、アシストナビゲーションを含むアプリケーションをサポートする、効率的でリアルタイムに近いパフォーマンスを実現するように設計されている。 3Dシーン表現の連続的な更新を実現するため,画像フローをスライディングウインドウで処理し,サブマップをアライメントすることで,VGGTの高メモリ要求を克服する。 VGGTトラッキングヘッドを利用して、2Dセマンティック・インスタンス・マスクを3Dオブジェクトに集約する。タイムスタンプとインスタンスレベルのアイデンティティを格納し、環境の変化を検出する。補助ナビゲーションシナリオに特化して設計された、よく知られたベンチマークとカスタムデータセットに対するアプローチを評価する。その結果,実世界のシナリオへのフレームワークの適用性を示した。

関連論文リスト

ChangingGrounding: 3D Visual Grounding in Changing Scenes [92.00984845186679]
現実世界のロボットは自然言語からオブジェクトをローカライズするが、周囲のシーンは変化し続けている。既存の3Dビジュアルグラウンドティング(3DVG)手法のほとんどは、再構築された最新の点雲を前提としている。エージェントが過去の観測をいかにうまく活用できるかを明示的に測定する最初のベンチマークであるChangeingGroundingを紹介します。
論文参考訳（メタデータ） (2025-10-16T17:59:16Z)
FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。 1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文参考訳（メタデータ） (2025-09-02T17:54:21Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。 FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文参考訳（メタデータ） (2024-05-07T13:15:07Z)
A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
視覚に基づく3Dセマンティック占有予測は、LiDARベースのアプローチを好んで、ますます見落としている。本研究では、時間的コヒーレントな3Dセマンティック占有度を予測するために設計されたトランスフォーマーアーキテクチャであるS2TPVFormerを紹介する。
論文参考訳（メタデータ） (2024-01-24T20:06:59Z)
TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。 TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文参考訳（メタデータ） (2021-11-14T19:01:02Z)
SCFusion: Real-time Incremental Scene Reconstruction with Semantic Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文参考訳（メタデータ） (2020-10-26T15:31:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。