論文の概要: Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces
- arxiv url: http://arxiv.org/abs/2406.16518v1
- Date: Mon, 24 Jun 2024 10:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:14:19.642786
- Title: Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces
- Title(参考訳): ビジョン・マンバを用いたコンクリート・アスファルト・石英表面の自律的き裂セグメンテーション
- Authors: Zhaohui Chen, Elyas Asadi Shamsabadi, Sheng Jiang, Luming Shen, Daniel Dias-da-Costa,
- Abstract要約: 本稿では, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのVision Mambaベースのフレームワークを提案する。
VMambaベースのエンコーダデコーダネットワークは、最大90.6%の低い浮動小数点演算で高解像度の画像入力を処理することができる。
- 参考スコア(独自算出の注目度): 2.023914201416672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional neural networks (CNNs) and Transformers have shown advanced accuracy in crack detection under certain conditions. Yet, the fixed local attention can compromise the generalisation of CNNs, and the quadratic complexity of the global self-attention restricts the practical deployment of Transformers. Given the emergence of the new-generation architecture of Mamba, this paper proposes a Vision Mamba (VMamba)-based framework for crack segmentation on concrete, asphalt, and masonry surfaces, with high accuracy, generalisation, and less computational complexity. Having 15.6% - 74.5% fewer parameters, the encoder-decoder network integrated with VMamba could obtain up to 2.8% higher mDS than representative CNN-based models while showing about the same performance as Transformer-based models. Moreover, the VMamba-based encoder-decoder network could process high-resolution image input with up to 90.6% lower floating-point operations.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、特定の条件下でのき裂検出において高度な精度を示す。
しかし、固定された局所的な注意はCNNの一般化を損なう可能性があり、グローバルな自己注意の二次的な複雑さはトランスフォーマーの実践的な展開を制限する。
マンバの次世代アーキテクチャの出現を踏まえ, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのビジョンマンバ(VMamba)ベースのフレームワークを提案する。
パラメータが15.6%から74.5%少ないため、VMambaと統合されたエンコーダデコーダネットワークは、Transformerベースのモデルと同等の性能を示しながら、CNNベースのモデルよりも最大2.8%高いmDSを得ることができた。
さらに、VMambaベースのエンコーダデコーダネットワークは、最大90.6%の浮動小数点演算で高解像度の画像入力を処理することができる。
関連論文リスト
- A Lightweight and Effective Image Tampering Localization Network with Vision Mamba [5.369780585789917]
現在の画像改ざん手法は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに依存している。
視覚的マンバ(ForMa)をベースとした,視覚障害者の視覚的触覚ローカライゼーションのための軽量かつ効果的なフォレストネットワークを提案する。
論文 参考訳(メタデータ) (2025-02-14T06:35:44Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - TransNeXt: Robust Foveal Visual Perception for Vision Transformers [0.0]
生体模倣設計に基づくトークンミキサーAggregated Attentionを提案する。
従来のクエリやキーと対話する学習可能なトークンを組み込んでいます。
集約された注意と畳み込みGLUを組み合わせて、TransNeXtと呼ばれる新しいビジュアルバックボーンを作成します。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。