論文の概要: SemanticSLAM: Learning based Semantic Map Construction and Robust Camera
Localization
- arxiv url: http://arxiv.org/abs/2401.13076v1
- Date: Tue, 23 Jan 2024 20:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:19:14.274714
- Title: SemanticSLAM: Learning based Semantic Map Construction and Robust Camera
Localization
- Title(参考訳): semanticslam: 学習に基づくセマンティックマップの構築とロバストなカメラ定位
- Authors: Mingyang Li, Yue Ma, and Qinru Qiu
- Abstract要約: 本稿では,エンド・ツー・エンドの視覚-慣性オドメトリーシステムであるSemanticSLAMを紹介する。
SemanticSLAMはRGB-Dセンサーから抽出された意味的特徴を使用する。
室内環境では、頻繁にカメラを入力しても効果的に機能する。
- 参考スコア(独自算出の注目度): 8.901799744401314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current techniques in Visual Simultaneous Localization and Mapping (VSLAM)
estimate camera displacement by comparing image features of consecutive scenes.
These algorithms depend on scene continuity, hence requires frequent camera
inputs. However, processing images frequently can lead to significant memory
usage and computation overhead. In this study, we introduce SemanticSLAM, an
end-to-end visual-inertial odometry system that utilizes semantic features
extracted from an RGB-D sensor. This approach enables the creation of a
semantic map of the environment and ensures reliable camera localization.
SemanticSLAM is scene-agnostic, which means it doesn't require retraining for
different environments. It operates effectively in indoor settings, even with
infrequent camera input, without prior knowledge. The strength of SemanticSLAM
lies in its ability to gradually refine the semantic map and improve pose
estimation. This is achieved by a convolutional long-short-term-memory
(ConvLSTM) network, trained to correct errors during map construction. Compared
to existing VSLAM algorithms, SemanticSLAM improves pose estimation by 17%. The
resulting semantic map provides interpretable information about the environment
and can be easily applied to various downstream tasks, such as path planning,
obstacle avoidance, and robot navigation. The code will be publicly available
at https://github.com/Leomingyangli/SemanticSLAM
- Abstract(参考訳): VSLAM(Visual Simultaneous Localization and Mapping)の最近の技術は、連続したシーンの画像特徴を比較することによって、カメラの変位を推定する。
これらのアルゴリズムはシーンの連続性に依存するため、頻繁なカメラ入力を必要とする。
しかし、画像の処理が頻繁に行われると、メモリ使用量や計算オーバーヘッドが大きくなります。
本研究では,rgb-dセンサから抽出した意味的特徴を利用したエンドツーエンドの視覚慣性オドメトリシステムであるsemanticslamを提案する。
このアプローチは、環境のセマンティックマップの作成を可能にし、信頼性の高いカメラのローカライゼーションを保証する。
SemanticSLAMはシーンに依存しないため、異なる環境に対する再トレーニングを必要としない。
室内環境では、事前の知識がなくても、カメラ入力が少ない場合でも効果的に動作する。
SemanticSLAMの強みは、セマンティックマップを徐々に洗練し、ポーズ推定を改善する能力にある。
これは、地図構築中にエラーを修正するために訓練された畳み込み長短メモリネットワーク(ConvLSTM)によって実現される。
既存のVSLAMアルゴリズムと比較して、SemanticSLAMはポーズ推定を17%改善する。
得られたセマンティックマップは環境に関する解釈可能な情報を提供し、経路計画、障害物回避、ロボットナビゲーションといった様々な下流タスクに容易に適用できる。
コードはhttps://github.com/Leomingyangli/SemanticSLAMで公開される。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Loopy-SLAM: Dense Neural SLAM with Loop Closures [53.11936461015725]
ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。
我々は,データ駆動のポイントベースサブマップ生成手法を用いてフレーム・ツー・モデル追跡を行い,グローバルな位置認識を行うことで,オンラインのループクロージャをトリガーする。
合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:32Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - CodeMapping: Real-Time Dense Mapping for Sparse SLAM using Compact Scene
Representations [20.79223452551813]
最先端の疎視的SLAMシステムは、カメラの軌跡とランドマークの位置を正確に推定する。
これらのスパースマップは、ローカライゼーションに有用であるが、障害物回避やシーン理解といった他のタスクには使用できない。
本稿では、カメラのポーズやスパースポイントを入力として捉えた疎視的SLAMシステムを補完する高密度マッピングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-19T16:13:18Z) - LatentSLAM: unsupervised multi-sensor representation learning for
localization and mapping [7.857987850592964]
低次元潜在状態記述子を生成する教師なし表現学習手法を提案する。
本手法はセンサ非依存であり,任意のセンサモダリティに適用可能である。
複数のセンサを組み合わせることで、偽の一致数を減らすことで堅牢性が向上することを示す。
論文 参考訳(メタデータ) (2021-05-07T13:44:32Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Scale Normalized Image Pyramids with AutoFocus for Object Detection [75.71320993452372]
スケール正規化画像ピラミッド(SNIP)が生成され、人間の視覚と同様に、異なるスケールで固定されたサイズ範囲内のオブジェクトにのみ参加する。
本研究では,オブジェクトを含む可能性のある固定サイズのサブリージョンのみで動作する,効率的な空間サブサンプリング手法を提案する。
結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5~5倍のスピードアップとなる。
論文 参考訳(メタデータ) (2021-02-10T18:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。