論文の概要: IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping
- arxiv url: http://arxiv.org/abs/2008.02760v2
- Date: Wed, 18 Nov 2020 23:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:57:18.721467
- Title: IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping
- Title(参考訳): iv-slam: 同時ローカライゼーションとマッピングのためのイントロスペクティブビジョン
- Authors: Sadegh Rabiee and Joydeep Biswas
- Abstract要約: IV-SLAMは、視覚的特徴からコンテキストに依存した再射誤差のノイズプロセスを明示的にモデル化する。
IV-SLAMは特徴抽出をガイドし、ノイズの少ない画像の一部からより多くの特徴を抽出する。
- 参考スコア(独自算出の注目度): 13.249453757295083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing solutions to visual simultaneous localization and mapping (V-SLAM)
assume that errors in feature extraction and matching are independent and
identically distributed (i.i.d), but this assumption is known to not be true --
features extracted from low-contrast regions of images exhibit wider error
distributions than features from sharp corners. Furthermore, V-SLAM algorithms
are prone to catastrophic tracking failures when sensed images include
challenging conditions such as specular reflections, lens flare, or shadows of
dynamic objects. To address such failures, previous work has focused on
building more robust visual frontends, to filter out challenging features. In
this paper, we present introspective vision for SLAM (IV-SLAM), a fundamentally
different approach for addressing these challenges. IV-SLAM explicitly models
the noise process of reprojection errors from visual features to be
context-dependent, and hence non-i.i.d. We introduce an autonomously supervised
approach for IV-SLAM to collect training data to learn such a context-aware
noise model. Using this learned noise model, IV-SLAM guides feature extraction
to select more features from parts of the image that are likely to result in
lower noise, and further incorporate the learned noise model into the joint
maximum likelihood estimation, thus making it robust to the aforementioned
types of errors. We present empirical results to demonstrate that IV-SLAM 1) is
able to accurately predict sources of error in input images, 2) reduces
tracking error compared to V-SLAM, and 3) increases the mean distance between
tracking failures by more than 70% on challenging real robot data compared to
V-SLAM.
- Abstract(参考訳): 既存の視覚的同時ローカライゼーションとマッピング(V-SLAM)のソリューションでは、特徴抽出とマッチングにおける誤差は独立で同一分布(d)であると仮定しているが、この仮定は真ではないことが知られている。
さらに、V-SLAMアルゴリズムは、知覚された画像がスペクトル反射、レンズフレア、ダイナミックオブジェクトの影などの困難な条件を含む場合、破滅的な追跡障害を引き起こす傾向にある。
このような障害に対処するため、以前の作業では、より堅牢なビジュアルフロントエンドの構築に重点を置いていた。
本稿では,これらの課題に対処するための根本的に異なるアプローチであるSLAM(IV-SLAM)のイントロスペクティブビジョンを提案する。
iv-slamは、視覚特徴から再投影エラーのノイズプロセスを明示的にモデル化し、それゆえ、非i.i.d.d.では、iv-slamがそのような文脈認識ノイズモデルを学ぶためにトレーニングデータを集めるための自律的教師付きアプローチを導入する。
この学習ノイズモデルを用いて、IV-SLAMは特徴抽出をガイドし、低ノイズをもたらす可能性のある画像の一部からより多くの特徴を抽出し、さらに学習ノイズモデルを結合最大推定に組み込むことにより、上記のタイプのエラーに対して堅牢になる。
IV-SLAMの実証実験結果を示す。
1)入力画像における誤差の発生源を正確に予測することができる。
2)V-SLAMと比較してトラッキングエラーを低減し,
3) V-SLAMと比較して, 実際のロボットデータに対して, トラッキング障害間の平均距離を70%以上増加させる。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion [18.990678061962825]
我々は,事前学習した画像拡散モデルを用いて低レベルの視覚的差を抑えるStem-OBを提案する。
この画像逆転過程は、観測結果を共有表現に変換するのと似ている。
提案手法は, シンプルかつ高効率なプラグアンドプレイソリューションである。
論文 参考訳(メタデータ) (2024-11-07T17:56:16Z) - VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - RANRAC: Robust Neural Scene Representations via Random Ray Consensus [12.161889666145127]
RANRAC(RANdom RAy Consensus)は、一貫性のないデータの影響を排除するための効率的な手法である。
我々はRANSACパラダイムのファジィ適応を定式化し、大規模モデルへの適用を可能にした。
その結果, 新規な視点合成のための最先端のロバストな手法と比較して, 顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-12-15T13:33:09Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。
本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T16:26:25Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。