論文の概要: IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping
- arxiv url: http://arxiv.org/abs/2008.02760v2
- Date: Wed, 18 Nov 2020 23:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:57:18.721467
- Title: IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping
- Title(参考訳): iv-slam: 同時ローカライゼーションとマッピングのためのイントロスペクティブビジョン
- Authors: Sadegh Rabiee and Joydeep Biswas
- Abstract要約: IV-SLAMは、視覚的特徴からコンテキストに依存した再射誤差のノイズプロセスを明示的にモデル化する。
IV-SLAMは特徴抽出をガイドし、ノイズの少ない画像の一部からより多くの特徴を抽出する。
- 参考スコア(独自算出の注目度): 13.249453757295083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing solutions to visual simultaneous localization and mapping (V-SLAM)
assume that errors in feature extraction and matching are independent and
identically distributed (i.i.d), but this assumption is known to not be true --
features extracted from low-contrast regions of images exhibit wider error
distributions than features from sharp corners. Furthermore, V-SLAM algorithms
are prone to catastrophic tracking failures when sensed images include
challenging conditions such as specular reflections, lens flare, or shadows of
dynamic objects. To address such failures, previous work has focused on
building more robust visual frontends, to filter out challenging features. In
this paper, we present introspective vision for SLAM (IV-SLAM), a fundamentally
different approach for addressing these challenges. IV-SLAM explicitly models
the noise process of reprojection errors from visual features to be
context-dependent, and hence non-i.i.d. We introduce an autonomously supervised
approach for IV-SLAM to collect training data to learn such a context-aware
noise model. Using this learned noise model, IV-SLAM guides feature extraction
to select more features from parts of the image that are likely to result in
lower noise, and further incorporate the learned noise model into the joint
maximum likelihood estimation, thus making it robust to the aforementioned
types of errors. We present empirical results to demonstrate that IV-SLAM 1) is
able to accurately predict sources of error in input images, 2) reduces
tracking error compared to V-SLAM, and 3) increases the mean distance between
tracking failures by more than 70% on challenging real robot data compared to
V-SLAM.
- Abstract(参考訳): 既存の視覚的同時ローカライゼーションとマッピング(V-SLAM)のソリューションでは、特徴抽出とマッチングにおける誤差は独立で同一分布(d)であると仮定しているが、この仮定は真ではないことが知られている。
さらに、V-SLAMアルゴリズムは、知覚された画像がスペクトル反射、レンズフレア、ダイナミックオブジェクトの影などの困難な条件を含む場合、破滅的な追跡障害を引き起こす傾向にある。
このような障害に対処するため、以前の作業では、より堅牢なビジュアルフロントエンドの構築に重点を置いていた。
本稿では,これらの課題に対処するための根本的に異なるアプローチであるSLAM(IV-SLAM)のイントロスペクティブビジョンを提案する。
iv-slamは、視覚特徴から再投影エラーのノイズプロセスを明示的にモデル化し、それゆえ、非i.i.d.d.では、iv-slamがそのような文脈認識ノイズモデルを学ぶためにトレーニングデータを集めるための自律的教師付きアプローチを導入する。
この学習ノイズモデルを用いて、IV-SLAMは特徴抽出をガイドし、低ノイズをもたらす可能性のある画像の一部からより多くの特徴を抽出し、さらに学習ノイズモデルを結合最大推定に組み込むことにより、上記のタイプのエラーに対して堅牢になる。
IV-SLAMの実証実験結果を示す。
1)入力画像における誤差の発生源を正確に予測することができる。
2)V-SLAMと比較してトラッキングエラーを低減し,
3) V-SLAMと比較して, 実際のロボットデータに対して, トラッキング障害間の平均距離を70%以上増加させる。
関連論文リスト
- Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection [46.041193889845474]
レイデノジング(Ray Denoising)は、カメラ線に沿って戦略的にサンプリングすることで検出精度を高める革新的な手法である。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETR方式のマルチビュー3D検出器と互換性がある。
NuScenesデータセット上の最先端のStreamPETR法よりも平均精度(mAP)が1.9%向上した。
論文 参考訳(メタデータ) (2024-02-06T02:17:44Z) - DK-SLAM: Monocular Visual SLAM with Deep Keypoints Adaptive Learning,
Tracking and Loop-Closing [14.091675189495426]
適応的な深部局所特徴を持つ視覚的SLAMシステムであるDK-SLAMを提案する。
MAMLはこれらの特徴のトレーニングを最適化し、粗い特徴追跡手法を導入する。
オンライン学習バイナリ機能ベースのオンラインループクロージャモジュールは、シーケンス内のループノードを特定する。
論文 参考訳(メタデータ) (2024-01-17T12:08:30Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in
Imaging Inverse Problems [78.76955228709241]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定データに特化してデノイングネットワークを適用する。
我々は多様な画像モダリティをまたいだOOD性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。
本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T16:26:25Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。