論文の概要: LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks
- arxiv url: http://arxiv.org/abs/2507.22477v2
- Date: Thu, 31 Jul 2025 01:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.721747
- Title: LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks
- Title(参考訳): LIDAR:構造き裂のマルチモーダルセグメンテーションのための軽量適応Cue-Aware Fusion Vision Mamba
- Authors: Hui Liu, Chen Jia, Fan Shi, Xu Cheng, Mengfei Shi, Xia Xie, Shengyong Chen,
- Abstract要約: 軽量適応Cue-Aware Vision Mambaネットワークを提案する。
マルチモーダルひび割れのシナリオ下で、異なるモーダルから形態的およびテクスチャ的手がかりを効率よく知覚し、統合する。
本手法はF1では0.8204、mIoUでは0.8465、パラメータは5.35Mである。
- 参考スコア(独自算出の注目度): 27.57718303520023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving pixel-level segmentation with low computational cost using multimodal data remains a key challenge in crack segmentation tasks. Existing methods lack the capability for adaptive perception and efficient interactive fusion of cross-modal features. To address these challenges, we propose a Lightweight Adaptive Cue-Aware Vision Mamba network (LIDAR), which efficiently perceives and integrates morphological and textural cues from different modalities under multimodal crack scenarios, generating clear pixel-level crack segmentation maps. Specifically, LIDAR is composed of a Lightweight Adaptive Cue-Aware Visual State Space module (LacaVSS) and a Lightweight Dual Domain Dynamic Collaborative Fusion module (LD3CF). LacaVSS adaptively models crack cues through the proposed mask-guided Efficient Dynamic Guided Scanning Strategy (EDG-SS), while LD3CF leverages an Adaptive Frequency Domain Perceptron (AFDP) and a dual-pooling fusion strategy to effectively capture spatial and frequency-domain cues across modalities. Moreover, we design a Lightweight Dynamically Modulated Multi-Kernel convolution (LDMK) to perceive complex morphological structures with minimal computational overhead, replacing most convolutional operations in LIDAR. Experiments on three datasets demonstrate that our method outperforms other state-of-the-art (SOTA) methods. On the light-field depth dataset, our method achieves 0.8204 in F1 and 0.8465 in mIoU with only 5.35M parameters. Code and datasets are available at https://github.com/Karl1109/LIDAR-Mamba.
- Abstract(参考訳): マルチモーダルデータを用いた低計算コストでピクセルレベルのセグメンテーションを実現することは、クラックセグメンテーションタスクにおいて重要な課題である。
既存の手法では、適応的な知覚と、モーダルな特徴の効率的な相互融合の能力が欠如している。
これらの課題に対処するため,マルチモーダル・クラック・シナリオ下で異なるモーダル性から形態的およびテクスチャ的手がかりを効率よく知覚・統合し,鮮明なピクセルレベルのクラック・セグメンテーション・マップを生成する軽量適応Cue-Aware Vision Mamba Network (LIDAR)を提案する。
具体的には、LIDARは軽量適応キュー対応ビジュアルステートスペースモジュール(LacaVSS)と軽量デュアルドメインダイナミックコラボレーティブフュージョンモジュール(LD3CF)で構成されている。
LacaVSS はマスク誘導高効率ダイナミックガイド走査戦略 (EDG-SS) を通じてクラックキューを適応的にモデル化し、LD3CF は適応周波数領域パーセプトロン (AFDP) とデュアルプール融合戦略を活用し、空間領域と周波数領域のキューをモダリティにわたって効果的に捕捉する。
さらに,LIDARのほとんどの畳み込み操作を置き換え,計算オーバーヘッドを最小限に抑えた複雑な形態構造を知覚するために,軽量動的変調マルチカーネル畳み込み(LDMK)を設計する。
3つのデータセットの実験により、我々の手法が他の最先端(SOTA)手法よりも優れていることが示された。
光界深度データセットではF1で0.8204、mIoUで0.8465、パラメータは5.35Mである。
コードとデータセットはhttps://github.com/Karl1109/LIDAR-Mamba.comで入手できる。
関連論文リスト
- Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - X Modality Assisting RGBT Object Tracking [1.730147049648545]
X Modality Assisting Network (X-Net)を導入し、視覚オブジェクト追跡を3つの異なるレベルに分離することで、融合パラダイムの影響を探る。
X-Netは、正確なレートと成功率の平均で0.47%/1.2%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。