Fugu-MT 論文翻訳(概要): IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping

論文の概要: IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping

arxiv url: http://arxiv.org/abs/2008.02760v2
Date: Wed, 18 Nov 2020 23:19:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 07:57:18.721467
Title: IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping
Title（参考訳）: iv-slam: 同時ローカライゼーションとマッピングのためのイントロスペクティブビジョン
Authors: Sadegh Rabiee and Joydeep Biswas
Abstract要約: IV-SLAMは、視覚的特徴からコンテキストに依存した再射誤差のノイズプロセスを明示的にモデル化する。 IV-SLAMは特徴抽出をガイドし、ノイズの少ない画像の一部からより多くの特徴を抽出する。
参考スコア（独自算出の注目度）: 13.249453757295083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing solutions to visual simultaneous localization and mapping (V-SLAM) assume that errors in feature extraction and matching are independent and identically distributed (i.i.d), but this assumption is known to not be true -- features extracted from low-contrast regions of images exhibit wider error distributions than features from sharp corners. Furthermore, V-SLAM algorithms are prone to catastrophic tracking failures when sensed images include challenging conditions such as specular reflections, lens flare, or shadows of dynamic objects. To address such failures, previous work has focused on building more robust visual frontends, to filter out challenging features. In this paper, we present introspective vision for SLAM (IV-SLAM), a fundamentally different approach for addressing these challenges. IV-SLAM explicitly models the noise process of reprojection errors from visual features to be context-dependent, and hence non-i.i.d. We introduce an autonomously supervised approach for IV-SLAM to collect training data to learn such a context-aware noise model. Using this learned noise model, IV-SLAM guides feature extraction to select more features from parts of the image that are likely to result in lower noise, and further incorporate the learned noise model into the joint maximum likelihood estimation, thus making it robust to the aforementioned types of errors. We present empirical results to demonstrate that IV-SLAM 1) is able to accurately predict sources of error in input images, 2) reduces tracking error compared to V-SLAM, and 3) increases the mean distance between tracking failures by more than 70% on challenging real robot data compared to V-SLAM.
Abstract（参考訳）: 既存の視覚的同時ローカライゼーションとマッピング(V-SLAM)のソリューションでは、特徴抽出とマッチングにおける誤差は独立で同一分布(d)であると仮定しているが、この仮定は真ではないことが知られている。さらに、V-SLAMアルゴリズムは、知覚された画像がスペクトル反射、レンズフレア、ダイナミックオブジェクトの影などの困難な条件を含む場合、破滅的な追跡障害を引き起こす傾向にある。このような障害に対処するため、以前の作業では、より堅牢なビジュアルフロントエンドの構築に重点を置いていた。本稿では,これらの課題に対処するための根本的に異なるアプローチであるSLAM(IV-SLAM)のイントロスペクティブビジョンを提案する。 iv-slamは、視覚特徴から再投影エラーのノイズプロセスを明示的にモデル化し、それゆえ、非i.i.d.d.では、iv-slamがそのような文脈認識ノイズモデルを学ぶためにトレーニングデータを集めるための自律的教師付きアプローチを導入する。この学習ノイズモデルを用いて、IV-SLAMは特徴抽出をガイドし、低ノイズをもたらす可能性のある画像の一部からより多くの特徴を抽出し、さらに学習ノイズモデルを結合最大推定に組み込むことにより、上記のタイプのエラーに対して堅牢になる。 IV-SLAMの実証実験結果を示す。 1)入力画像における誤差の発生源を正確に予測することができる。 2)V-SLAMと比較してトラッキングエラーを低減し, 3) V-SLAMと比較して, 実際のロボットデータに対して, トラッキング障害間の平均距離を70%以上増加させる。

関連論文リスト

4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文参考訳（メタデータ） (2025-06-27T14:09:29Z)
Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文参考訳（メタデータ） (2025-05-23T15:05:56Z)
PIV-FlowDiffuser:Transfer-learning-based denoising diffusion models for PIV [4.174753106884832]
本研究では,PIV解析にデノナイジング拡散モデル(FlowDiffuser)を用いる。 PIV-FlowDiffuser法により,データ強調反復復調拡散モデルを伝達学習戦略により訓練する。その結果,PIV-FlowDiffuserはノイズパターンを効果的に抑制することがわかった。
論文参考訳（メタデータ） (2025-04-21T08:22:58Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。 ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion [18.990678061962825]
我々は,事前学習した画像拡散モデルを用いて低レベルの視覚的差を抑えるStem-OBを提案する。この画像逆転過程は、観測結果を共有表現に変換するのと似ている。提案手法は, シンプルかつ高効率なプラグアンドプレイソリューションである。
論文参考訳（メタデータ） (2024-11-07T17:56:16Z)
VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文参考訳（メタデータ） (2024-09-25T20:12:10Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-18T09:52:14Z)
RANRAC: Robust Neural Scene Representations via Random Ray Consensus [12.161889666145127]
RANRAC(RANdom RAy Consensus)は、一貫性のないデータの影響を排除するための効率的な手法である。我々はRANSACパラダイムのファジィ適応を定式化し、大規模モデルへの適用を可能にした。その結果, 新規な視点合成のための最先端のロバストな手法と比較して, 顕著な改善が見られた。
論文参考訳（メタデータ） (2023-12-15T13:33:09Z)
Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文参考訳（メタデータ） (2023-11-18T08:48:58Z)
UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T16:26:25Z)
Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文参考訳（メタデータ） (2023-05-17T13:56:48Z)
The role of noise in denoising models for anomaly detection in medical images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。正規データのみを用いた教師なし異常検出手法が提案されている。空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文参考訳（メタデータ） (2023-01-19T21:39:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。