論文の概要: Multimodal Fusion SLAM with Fourier Attention
- arxiv url: http://arxiv.org/abs/2506.18204v1
- Date: Sun, 22 Jun 2025 23:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.80562
- Title: Multimodal Fusion SLAM with Fourier Attention
- Title(参考訳): フーリエを考慮したマルチモーダルフュージョンSLAM
- Authors: Youjie Zhou, Guofeng Mei, Yiming Wang, Yi Wan, Fabio Poiesi,
- Abstract要約: 本稿では,高速フーリエ変換 (FFT) を用いた効率的なマルチモーダル融合SLAM法FMF-SLAMを提案する。
具体的には、RGBと奥行き信号から特徴を抽出する、新しいフーリエ型自己注意・相互注意機構を導入する。
我々のアプローチは、TUM、TartanAir、および我々の実世界のデータセットのビデオシーケンスを使用して検証され、ノイズ、様々な照明、暗黒条件下での最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 15.2253217769593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual SLAM is particularly challenging in environments affected by noise, varying lighting conditions, and darkness. Learning-based optical flow algorithms can leverage multiple modalities to address these challenges, but traditional optical flow-based visual SLAM approaches often require significant computational resources.To overcome this limitation, we propose FMF-SLAM, an efficient multimodal fusion SLAM method that utilizes fast Fourier transform (FFT) to enhance the algorithm efficiency. Specifically, we introduce a novel Fourier-based self-attention and cross-attention mechanism to extract features from RGB and depth signals. We further enhance the interaction of multimodal features by incorporating multi-scale knowledge distillation across modalities. We also demonstrate the practical feasibility of FMF-SLAM in real-world scenarios with real time performance by integrating it with a security robot by fusing with a global positioning module GNSS-RTK and global Bundle Adjustment. Our approach is validated using video sequences from TUM, TartanAir, and our real-world datasets, showcasing state-of-the-art performance under noisy, varying lighting, and dark conditions.Our code and datasets are available at https://github.com/youjie-zhou/FMF-SLAM.git.
- Abstract(参考訳): 視覚SLAMは、ノイズ、様々な照明条件、暗黒の影響を受けやすい環境において特に困難である。
学習ベースの光フローアルゴリズムはこれらの課題に対処するために複数のモードを利用することができるが、従来の光フローベースのビジュアルSLAMアプローチでは、この制限を克服するために、高速フーリエ変換(FFT)を利用した効率的なマルチモーダル融合SLAM法であるFMF-SLAMを提案する。
具体的には、RGBと奥行き信号から特徴を抽出する、新しいフーリエ型自己注意・相互注意機構を導入する。
マルチモーダルな知識蒸留をモダリティに組み込むことにより,マルチモーダルな特徴の相互作用をさらに強化する。
また,グローバル位置決めモジュールGNSS-RTKとグローバルバンドル調整とを融合させて,セキュリティロボットと一体化することにより,FMF-SLAMの現実的実現可能性を示す。
我々のアプローチは、TUM、TartanAir、および我々の実世界のデータセットのビデオシーケンスを使用して検証され、ノイズ、様々な照明、暗い条件下での最先端のパフォーマンスを示します。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Exploring State Space Model in Wavelet Domain: An Infrared and Visible Image Fusion Network via Wavelet Transform and State Space Model [8.392891463947661]
本研究では、ウェーブレット変換と状態空間モデル(SSM)を統合するウェーブレット・マンバを提案する。
Wavelet-SSMモジュールは、ウェーブレットベースの周波数領域の特徴抽出とSSMによるグローバル情報抽出を組み込む。
提案手法は,現在の最先端手法と比較して,視覚的に魅力的な結果と優れた性能を両立させる。
論文 参考訳(メタデータ) (2025-03-24T06:25:44Z) - FMNet: Frequency-Assisted Mamba-Like Linear Attention Network for Camouflaged Object Detection [7.246630480680039]
カモフラージュ対象物検出(COD)は、カモフラージュ対象物とその周囲の強い類似性のために困難である。
既存の手法は主に空間的局所的特徴に依存しており、グローバルな情報を捉えていない。
周波数支援型マンバ様線形注意ネットワーク(FMNet)は,グローバルな特徴を効率的に捉えるために提案されている。
論文 参考訳(メタデータ) (2025-03-14T02:55:19Z) - Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection [8.607385112274882]
深層学習は、RGB画像と熱画像(RGB-T画像)を併用したサルエント物体検出(SOD)を大幅に改善した。
既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
本稿では,DFENet(Deep Fourier-Embedded Network)という,純粋なフーリエ変換モデルを提案する。
論文 参考訳(メタデータ) (2024-11-27T14:55:16Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Beyond Self Attention: A Subquadratic Fourier Wavelet Transformer with Multi Modal Fusion [0.0]
変圧器のアテンション機構を代替するスペクトル技術について再検討する。
次世代変圧器モデルにおけるこの手法の包括的で斬新な改質について述べる。
論文 参考訳(メタデータ) (2021-11-25T18:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。