論文の概要: Mamba meets crack segmentation
- arxiv url: http://arxiv.org/abs/2407.15714v1
- Date: Mon, 22 Jul 2024 15:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:30:36.473415
- Title: Mamba meets crack segmentation
- Title(参考訳): マンバがクラックセグメンテーションに到達
- Authors: Zhili He, Yu-Hsing Wang,
- Abstract要約: 亀裂はインフラに安全リスクをもたらし、見落としられない。
CNNはグローバルなモデリング能力に欠けており、ひび割れの特徴全体の表現を妨げる。
本研究では,マンバの特徴を分解する表現能力について検討する。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cracks pose safety risks to infrastructure and cannot be overlooked. The prevailing structures in existing crack segmentation networks predominantly consist of CNNs or Transformers. However, CNNs exhibit a deficiency in global modeling capability, hindering the representation to entire crack features. Transformers can capture long-range dependencies but suffer from high and quadratic complexity. Recently, Mamba has garnered extensive attention due to its linear spatial and computational complexity and its powerful global perception. This study explores the representation capabilities of Mamba to crack features. Specifically, this paper uncovers the connection between Mamba and the attention mechanism, providing a profound insight, an attention perspective, into interpreting Mamba and devising a novel Mamba module following the principles of attention blocks, namely CrackMamba. We compare CrackMamba with the most prominent visual Mamba modules, Vim and Vmamba, on two datasets comprising asphalt pavement and concrete pavement cracks, and steel cracks, respectively. The quantitative results show that CrackMamba stands out as the sole Mamba block consistently enhancing the baseline model's performance across all evaluation measures, while reducing its parameters and computational costs. Moreover, this paper substantiates that Mamba can achieve global receptive fields through both theoretical analysis and visual interpretability. The discoveries of this study offer a dual contribution. First, as a plug-and-play and simple yet effective Mamba module, CrackMamba exhibits immense potential for integration into various crack segmentation models. Second, the proposed innovative Mamba design concept, integrating Mamba with the attention mechanism, holds significant reference value for all Mamba-based computer vision models, not limited to crack segmentation networks, as investigated in this study.
- Abstract(参考訳): 亀裂はインフラに安全リスクをもたらし、見落としられない。
既存のクラックセグメンテーションネットワークにおける一般的な構造は、主にCNNまたはTransformerで構成されている。
しかし、CNNはグローバルなモデリング能力に欠けており、ひび割れの特徴全体の表現を妨げる。
トランスフォーマーは長距離依存をキャプチャできるが、高度で二次的な複雑さに悩まされる。
最近、マンバはその線形空間的・計算的複雑さと強力なグローバルな認識のために、大きな注目を集めている。
本研究では,マンバの特徴を分解する表現能力について検討する。
具体的には,マンバとアテンション機構の関係を明らかにするとともに,マンバを解釈し,アテンションブロックの原理に従う新しいマンバモジュール,すなわちCrackMambaを考案する。
我々は, アスファルト舗装とコンクリート舗装のひび割れと鋼のひび割れからなる2つのデータセットについて, 目立ったマンバモジュールであるVimとVmambaを比較した。
定量的な結果から、CrackMambaはパラメータと計算コストを削減しつつ、ベースラインモデルの性能を一貫して向上する唯一のMambaブロックであることが明らかとなった。
さらに,本稿では,マンバが理論的解析と視覚的解釈可能性の両面からグローバルな受容場を達成できることを示す。
この研究の発見は二重の貢献をもたらす。
まず、プラグアンドプレイでシンプルで効果的なMambaモジュールとして、CrackMambaは様々なクラックセグメンテーションモデルに統合される大きな可能性を示す。
第2に,Mamba とアテンション機構を統合した革新的 Mamba の設計概念は,クラックセグメンテーションネットワークに限らず,すべての Mamba ベースのコンピュータビジョンモデルに対して重要な参照値を保持する。
関連論文リスト
- A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。
本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (2024-08-02T09:18:41Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。