論文の概要: Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time
Visual Scene Understanding
- arxiv url: http://arxiv.org/abs/2309.15065v1
- Date: Tue, 26 Sep 2023 16:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:55:09.280702
- Title: Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time
Visual Scene Understanding
- Title(参考訳): language-extended indoor slam (lexis):リアルタイム視覚シーン理解のための汎用システム
- Authors: Christina Kassab, Matias Mattamala, Lintong Zhang, and Maurice Fallon
- Abstract要約: LEXISはリアルタイム屋内局地化マッピングシステムである。
大規模言語モデルのオープン語彙の性質を活用して、シーン理解と位置認識のための統一的なアプローチを作成する。
レイアウトや寸法の異なる部屋をうまく分類し、最先端のSOTA(State-of-the-art)より優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Versatile and adaptive semantic understanding would enable autonomous systems
to comprehend and interact with their surroundings. Existing fixed-class models
limit the adaptability of indoor mobile and assistive autonomous systems. In
this work, we introduce LEXIS, a real-time indoor Simultaneous Localization and
Mapping (SLAM) system that harnesses the open-vocabulary nature of Large
Language Models (LLMs) to create a unified approach to scene understanding and
place recognition. The approach first builds a topological SLAM graph of the
environment (using visual-inertial odometry) and embeds Contrastive
Language-Image Pretraining (CLIP) features in the graph nodes. We use this
representation for flexible room classification and segmentation, serving as a
basis for room-centric place recognition. This allows loop closure searches to
be directed towards semantically relevant places. Our proposed system is
evaluated using both public, simulated data and real-world data, covering
office and home environments. It successfully categorizes rooms with varying
layouts and dimensions and outperforms the state-of-the-art (SOTA). For place
recognition and trajectory estimation tasks we achieve equivalent performance
to the SOTA, all also utilizing the same pre-trained model. Lastly, we
demonstrate the system's potential for planning.
- Abstract(参考訳): VersatileとAdaptiveなセマンティック理解は、自律的なシステムが周囲の理解と相互作用を可能にする。
既存の固定クラスモデルは、屋内移動および補助自律システムの適応性を制限する。
本研究では,大規模言語モデル(LLM)のオープンな語彙特性を利用したリアルタイム屋内局所マッピング(SLAM)システムであるLEXISを導入し,シーン理解と位置認識のための統一的なアプローチを提案する。
このアプローチはまず、環境のトポロジカルSLAMグラフ(ビジュアル慣性オドメトリー)を構築し、グラフノードにContrastive Language-Image Pretraining (CLIP)機能を組み込む。
この表現をフレキシブルな部屋分類とセグメンテーションに使用し,部屋中心の場所認識の基礎となっている。
これにより、ループクロージャ検索は意味のある場所へ向けられる。
提案システムは,公開データ,シミュレーションデータ,実世界データ,オフィス環境,家庭環境の両方を用いて評価を行う。
様々なレイアウトと寸法の部屋をうまく分類し、最先端(SOTA)を上回っている。
位置認識および軌道推定タスクでは、SOTAと同等の性能を達成し、全て同じ事前学習モデルも活用する。
最後に、システムを計画する可能性を実証する。
関連論文リスト
- Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Open-World Semantic Segmentation Including Class Similarity [31.799000996671975]
本論文は, オープンワールドのセマンティックセマンティックセグメンテーション, すなわち, トレーニング中に未確認の物体を解釈する画像データの変種に対処する。
本稿では,クローズドワールドのセマンティックセグメンテーションを正確に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:11:19Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Closing the Loop: Graph Networks to Unify Semantic Objects and Visual
Features for Multi-object Scenes [2.236663830879273]
ループクロージャ検出(LCD)は、以前に訪れた場所を認識する際に、ドリフトを最小限に抑えるために必要である。
Visual Bag-of-Words (vBoW)は、多くの最先端SLAMシステムで選択されたLCDアルゴリズムである。
本稿では,セマンティックオブジェクトと視覚的特徴を共生的に統合する統合グラフ構造を構築するSymbioLCD2を提案する。
論文 参考訳(メタデータ) (2022-09-24T00:42:33Z) - PLD-SLAM: A Real-Time Visual SLAM Using Points and Line Segments in
Dynamic Scenes [0.0]
本稿では,点と線の特徴を組み合わせたリアルタイムステレオ間接視覚SLAMシステム PLD-SLAMを提案する。
また,適切な選択と効率的なループ閉鎖検出を実現するため,グローバルグレー類似度(GGS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-22T07:40:00Z) - Retrieval and Localization with Observation Constraints [12.010135672015704]
RLOCSと呼ばれる視覚的再局在化手法を提案する。
画像検索、意味整合性、幾何学的検証を組み合わせて正確な推定を行う。
本手法は, ローカライゼーションベンチマークにおいて多くの性能向上を実現している。
論文 参考訳(メタデータ) (2021-08-19T06:14:33Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文 参考訳(メタデータ) (2020-12-04T16:27:59Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。