Fugu-MT 論文翻訳(概要): DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping

論文の概要: DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping

arxiv url: http://arxiv.org/abs/2403.13714v1
Date: Wed, 20 Mar 2024 16:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 16:18:41.905768
Title: DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping
Title（参考訳）: DBA-Fusion:大規模ローカライゼーションとマッピングのための高密度視覚バンドル調整とマルチセンサの統合
Authors: Yuxuan Zhou, Xingxing Li, Shengyu Li, Xuanbin Wang, Shaoquan Feng, Yuxuan Tan,
Abstract要約: トレーニング可能な高密度バンドル調整(DBA)を因子グラフを通じて多センサ情報と密に統合する。視覚-慣性統合のためのパイプラインが最初に開発され、メカニカルスケールのローカライゼーションとマッピングの最小限の能力を提供する。その結果,大規模環境におけるリアルタイム高密度マッピングを実現する手法として,より優れたローカライゼーション性能が得られた。
参考スコア（独自算出の注目度）: 3.5047603107971397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual simultaneous localization and mapping (VSLAM) has broad applications, with state-of-the-art methods leveraging deep neural networks for better robustness and applicability. However, there is a lack of research in fusing these learning-based methods with multi-sensor information, which could be indispensable to push related applications to large-scale and complex scenarios. In this paper, we tightly integrate the trainable deep dense bundle adjustment (DBA) with multi-sensor information through a factor graph. In the framework, recurrent optical flow and DBA are performed among sequential images. The Hessian information derived from DBA is fed into a generic factor graph for multi-sensor fusion, which employs a sliding window and supports probabilistic marginalization. A pipeline for visual-inertial integration is firstly developed, which provides the minimum ability of metric-scale localization and mapping. Furthermore, other sensors (e.g., global navigation satellite system) are integrated for driftless and geo-referencing functionality. Extensive tests are conducted on both public datasets and self-collected datasets. The results validate the superior localization performance of our approach, which enables real-time dense mapping in large-scale environments. The code has been made open-source (https://github.com/GREAT-WHU/DBA-Fusion).
Abstract（参考訳）: 視覚的同時ローカライゼーションとマッピング(VSLAM)は、より堅牢性と適用性を高めるためにディープニューラルネットワークを活用する最先端の手法により、幅広い応用がある。しかし、これらの学習に基づく手法をマルチセンサー情報と融合させる研究は乏しいため、関連するアプリケーションを大規模で複雑なシナリオにプッシュするには不可欠である。本稿では,トレーニング可能な高密度バンドル調整(DBA)を因子グラフを通じて多センサ情報と密に統合する。このフレームワークでは、逐次的な画像間で、繰り返し光流とDBAが実行される。 DBAから得られたヘッセン情報は、スライディングウインドウを用いて確率的辺縁化をサポートするマルチセンサー融合のための一般的な因子グラフに入力される。視覚-慣性統合のためのパイプラインが最初に開発され、メカニカルスケールのローカライゼーションとマッピングの最小限の能力を提供する。さらに、他のセンサー(例:グローバルナビゲーション衛星システム)は、ドリフトレスおよびジオレファレンス機能に統合されている。大規模なテストは、公開データセットと自己収集データセットの両方で実施される。その結果,大規模環境におけるリアルタイム高密度マッピングを実現する手法として,より優れたローカライゼーション性能が得られた。コードはオープンソース化されている(https://github.com/GREAT-WHU/DBA-Fusion)。

関連論文リスト

BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文参考訳（メタデータ） (2025-03-14T13:17:43Z)
Dual Mutual Learning Network with Global-local Awareness for RGB-D Salient Object Detection [10.353412441955436]
本研究では,グローバルな相互学習ネットワークであるGL-DMNetを提案する。異なるモード間の相互依存性を利用するために,位置相互融合モジュールとチャネル相互融合モジュールを提案する。提案するGL-DMNetは, 24 RGB-D SOD法よりも優れた性能を示し, 平均3%の改善を実現している。
論文参考訳（メタデータ） (2025-01-03T05:37:54Z)
SF-Loc: A Visual Mapping and Geo-Localization System based on Sparse Visual Structure Frames [3.5047603107971397]
SF-Locは軽量なビジュアルマッピングとマップ支援型ローカライゼーションシステムである。マッピングフェーズでは,多センサ高密度バンドル調整(MS-DBA)を適用し,ジオレファレンスな視覚構造フレームを構築する。ローカライズフェーズでは、多フレーム情報と地図分布を完全に統合した粗大な視覚に基づくローカライズを行う。
論文参考訳（メタデータ） (2024-12-02T13:51:58Z)
OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances [11.085165252259042]
OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
論文参考訳（メタデータ） (2024-11-13T14:59:00Z)
GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文参考訳（メタデータ） (2024-09-15T02:26:17Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。 HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2024-08-02T09:31:21Z)
RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文参考訳（メタデータ） (2024-06-11T07:46:47Z)
Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文参考訳（メタデータ） (2023-07-21T14:53:12Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文参考訳（メタデータ） (2020-08-25T06:00:06Z)
AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文参考訳（メタデータ） (2020-08-16T22:27:43Z)
Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。 8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文参考訳（メタデータ） (2020-07-27T21:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。