論文の概要: vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding
- arxiv url: http://arxiv.org/abs/2503.01783v1
- Date: Mon, 03 Mar 2025 18:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:15.368901
- Title: vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding
- Title(参考訳): vS-Graphs:マルチレベルシーン理解による視覚SLAMと状況グラフの統合
- Authors: Ali Tourani, Saad Ejaz, Hriday Bavle, David Morilla-Cabello, Jose Luis Sanchez-Lopez, Holger Voos,
- Abstract要約: 本稿では,新しいリアルタイムVSLAMフレームワークであるビジュアルSグラフ(vS-Graphs)を紹介する。
視覚に基づくシーン理解と地図再構成と理解可能なグラフベース表現を統合している。
標準ベンチマークと実世界のデータセットの実験は、vS-Graphsが最先端のVSLAMメソッドより優れていることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Current Visual Simultaneous Localization and Mapping (VSLAM) systems often struggle to create maps that are both semantically rich and easily interpretable. While incorporating semantic scene knowledge aids in building richer maps with contextual associations among mapped objects, representing them in structured formats like scene graphs has not been widely addressed, encountering complex map comprehension and limited scalability. This paper introduces visual S-Graphs (vS-Graphs), a novel real-time VSLAM framework that integrates vision-based scene understanding with map reconstruction and comprehensible graph-based representation. The framework infers structural elements (i.e., rooms and corridors) from detected building components (i.e., walls and ground surfaces) and incorporates them into optimizable 3D scene graphs. This solution enhances the reconstructed map's semantic richness, comprehensibility, and localization accuracy. Extensive experiments on standard benchmarks and real-world datasets demonstrate that vS-Graphs outperforms state-of-the-art VSLAM methods, reducing trajectory error by an average of 3.38% and up to 9.58% on real-world data. Furthermore, the proposed framework achieves environment-driven semantic entity detection accuracy comparable to precise LiDAR-based frameworks using only visual features. A web page containing more media and evaluation outcomes is available on https://snt-arg.github.io/vsgraphs-results/.
- Abstract(参考訳): 現在のVisual Simultaneous Localization and Mapping (VSLAM)システムは、意味的にリッチで容易に解釈可能な地図を作成するのに苦労することが多い。
セマンティックなシーン知識を取り入れることで、マップ化されたオブジェクト間のコンテキスト関連を持つよりリッチなマップを構築することができるが、シーングラフのような構造化フォーマットでそれらを表現することは広くは解決されておらず、複雑なマップの理解とスケーラビリティの制限に直面している。
本稿では,ビジュアルSグラフ(vS-Graphs,vS-Graphs)を導入し,視覚に基づくシーン理解と地図再構成と理解可能なグラフベース表現を統合した新しいリアルタイムVSLAMフレームワークを提案する。
このフレームワークは、検出された建物要素(壁や地面など)から構造要素(部屋や廊下など)を推論し、最適化可能な3Dシーングラフに組み込む。
この解は、再構成された地図の意味的豊かさ、理解性、局所化の精度を高める。
標準ベンチマークと実世界のデータセットに関する大規模な実験では、vS-Graphsは最先端のVSLAM法より優れており、軌道誤差を平均3.38%、実世界のデータで最大9.58%削減している。
さらに,提案フレームワークは,視覚的特徴のみを用いた正確なLiDARベースのフレームワークに匹敵する環境駆動型セマンティックエンティティ検出精度を実現する。
より多くのメディアと評価結果を含むWebページがhttps://snt-arg.github.io/vsgraphs-results/で公開されている。
関連論文リスト
- Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data [0.0]
本稿では, 壁面や地表面などの構造成分を局所化するための実時間パイプラインについて, 純三次元平面検出のための幾何計算を統合した。
並列なマルチスレッドアーキテクチャを持ち、環境中で検出されたすべての平面のポーズと方程式を正確に推定し、汎視的セグメンテーション検証を用いて地図構造を形成するものをフィルタリングし、検証された構成部品のみを保持する。
また、検出されたコンポーネントを統一された3次元シーングラフに(再)関連付けることで、幾何学的精度と意味的理解のギャップを埋めることもできる。
論文 参考訳(メタデータ) (2024-09-10T16:28:09Z) - MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - Dynamic Graph Representation with Knowledge-aware Attention for
Histopathology Whole Slide Image Analysis [11.353826466710398]
本稿では,知識グラフ構造の形式としてWSIを概念化する新しい動的グラフ表現アルゴリズムを提案する。
具体的には、インスタンス間の頭と尾の関係に基づいて、隣人や方向のエッジの埋め込みを動的に構築する。
我々のエンドツーエンドグラフ表現学習アプローチは、TCGAベンチマーク3つのデータセットと社内テストセットにおける最先端のWSI分析手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T14:58:51Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Sub-graph Contrast for Scalable Self-Supervised Graph Representation
Learning [21.0019144298605]
既存のグラフニューラルネットワークは、計算量やメモリコストが限られているため、完全なグラフデータで供給される。
textscSubg-Conは、中央ノードとそのサンプルサブグラフ間の強い相関を利用して、地域構造情報をキャプチャすることで提案される。
既存のグラフ表現学習アプローチと比較して、textscSubg-Conは、より弱い監視要件、モデル学習のスケーラビリティ、並列化において、顕著なパフォーマンス上のアドバンテージを持っています。
論文 参考訳(メタデータ) (2020-09-22T01:58:19Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。