論文の概要: Monocular visual simultaneous localization and mapping: (r)evolution from geometry to deep learning-based pipelines
- arxiv url: http://arxiv.org/abs/2503.02955v1
- Date: Tue, 04 Mar 2025 19:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:28.391840
- Title: Monocular visual simultaneous localization and mapping: (r)evolution from geometry to deep learning-based pipelines
- Title(参考訳): 単眼の視覚的同時局在とマッピング:(r)幾何学から深層学習に基づくパイプラインへの進化
- Authors: Olaya Alvarez-Tunon, Yury Brodskiy, Erdal Kayacan,
- Abstract要約: 本稿では、幾何学ベースのSLAMと学習ベースのSLAMの2つの主要なフレームワークに基づいて、視覚的SLAMアルゴリズムの現状を調査する。
視覚的SLAM調査における2つの重要な課題に対処し、視覚的SLAMパイプラインを一貫した分類を提供し、(2)異なるデプロイメント条件下での性能を堅牢に評価する。
- 参考スコア(独自算出の注目度): 5.277598111323804
- License:
- Abstract: With the rise of deep learning, there is a fundamental change in visual SLAM algorithms toward developing different modules trained as end-to-end pipelines. However, regardless of the implementation domain, visual SLAM's performance is subject to diverse environmental challenges, such as dynamic elements in outdoor environments, harsh imaging conditions in underwater environments, or blurriness in high-speed setups. These environmental challenges need to be identified to study the real-world viability of SLAM implementations. Motivated by the aforementioned challenges, this paper surveys the current state of visual SLAM algorithms according to the two main frameworks: geometry-based and learning-based SLAM. First, we introduce a general formulation of the SLAM pipeline that includes most of the implementations in the literature. Second, those implementations are classified and surveyed for geometry and learning-based SLAM. After that, environment-specific challenges are formulated to enable experimental evaluation of the resilience of different visual SLAM classes to varying imaging conditions. We address two significant issues in surveying visual SLAM, providing (1) a consistent classification of visual SLAM pipelines and (2) a robust evaluation of their performance under different deployment conditions. Finally, we give our take on future opportunities for visual SLAM implementations.
- Abstract(参考訳): ディープラーニングの台頭に伴い、エンドツーエンドパイプラインとしてトレーニングされたさまざまなモジュールの開発に向けた、ビジュアルSLAMアルゴリズムの根本的な変更がある。
しかし、実装領域にかかわらず、視覚SLAMの性能は、屋外環境における動的要素、水中環境における過酷な撮像条件、高速セットアップにおける曖昧さなど、多様な環境課題に直面している。
これらの環境課題は、SLAM実装の現実的な生存可能性を研究するために特定する必要がある。
上記の課題に触発された本研究では、幾何学ベースのSLAMと学習ベースのSLAMという2つの主要なフレームワークに基づいて、視覚的SLAMアルゴリズムの現状を調査する。
まず、文献のほとんどの実装を含むSLAMパイプラインの一般的な定式化を導入する。
第二に、これらの実装は幾何学と学習に基づくSLAMのために分類され、調査される。
その後、環境特異的な課題を定式化し、様々な画像条件に対する様々な視覚SLAMクラスのレジリエンスを実験的に評価する。
1)視覚的SLAMパイプラインの一貫した分類を提供し,(2)異なる配置条件下での性能評価を行うという,視覚的SLAM調査における2つの重要な課題に対処する。
最後に、ビジュアルSLAM実装の今後の可能性について述べます。
関連論文リスト
- Low-Light Image Enhancement via Generative Perceptual Priors [75.01646333310073]
視覚言語モデル(VLM)を用いた新しいtextbfLLIE フレームワークを提案する。
まず、LL画像の複数の視覚特性を評価するためにVLMを誘導するパイプラインを提案し、その評価を定量化し、グローバルおよびローカルな知覚的先行情報を出力する。
LLIEを有効活用するために,これらの生成的知覚前駆体を組み込むため,拡散過程にトランスフォーマーベースのバックボーンを導入し,グローバルおよびローカルな知覚前駆体によってガイドされる新しい層正規化(textittextbfLPP-Attn)を開発する。
論文 参考訳(メタデータ) (2024-12-30T12:51:52Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - DK-SLAM: Monocular Visual SLAM with Deep Keypoint Learning, Tracking and Loop-Closing [13.50980509878613]
公開されているデータセットに対する実験的評価は、DK-SLAMが従来のSLAMシステムと学習ベースのSLAMシステムより優れていることを示している。
本システムでは,キーポイント抽出ネットワークの学習を最適化するために,モデル非依存メタラーニング(MAML)戦略を採用している。
累積的な位置決め誤差を軽減するため、DK-SLAMはループ閉鎖検出にバイナリ機能を利用する新しいオンライン学習モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-01-17T12:08:30Z) - DVI-SLAM: A Dual Visual Inertial SLAM Network [31.067716365926845]
本稿では2つの視覚的要素を持つ新しいディープSLAMネットワークを提案する。
提案するネットワークは,両視覚要因の信頼度マップを動的に学習し,調整する。
大規模な実験により,提案手法はいくつかの公開データセットにおいて,最先端の手法を著しく上回っていることが確認された。
論文 参考訳(メタデータ) (2023-09-25T01:42:54Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - NICE-SLAM: Neural Implicit Scalable Encoding for SLAM [112.6093688226293]
NICE-SLAMは階層的なシーン表現を導入することでマルチレベルローカル情報を組み込んだ高密度SLAMシステムである。
最近の暗黙的SLAMシステムと比較して、私たちのアプローチはよりスケーラブルで効率的で堅牢です。
論文 参考訳(メタデータ) (2021-12-22T18:45:44Z) - LIFT-SLAM: a deep-learning feature-based monocular visual SLAM method [0.0]
従来のジオメトリベースのVSLAMと深層学習に基づく特徴記述子の可能性を組み合わせることを提案する。
KITTIとEurocのデータセットを用いた実験では、ディープラーニングが従来のVSLAMシステムの性能向上に有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-31T20:35:10Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Early Bird: Loop Closures from Opposing Viewpoints for
Perceptually-Aliased Indoor Environments [35.663671249819124]
本稿では,視点変化と知覚的エイリアスを同時に扱う新しい研究を提案する。
本稿では,VPRとSLAMの統合により,VPRの性能向上,特徴対応,グラフサブモジュールのポーズが著しく促進されることを示す。
知覚的エイリアス化や180度回転する極端な視点変化に拘わらず,最先端のパフォーマンスを実現するローカライズシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2020-10-03T20:18:55Z) - Learning to Explore using Active Neural SLAM [99.42064696897533]
この研究は、3D環境を探索するポリシーを学ぶためのモジュラーで階層的なアプローチを示す。
提案されたモデルはPointGoalタスクに簡単に移行することができ、CVPR 2019 Habitat PointGoal Navigation Challengeの勝者となった。
論文 参考訳(メタデータ) (2020-04-10T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。