論文の概要: Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces
- arxiv url: http://arxiv.org/abs/2406.16518v1
- Date: Mon, 24 Jun 2024 10:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:14:19.642786
- Title: Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces
- Title(参考訳): ビジョン・マンバを用いたコンクリート・アスファルト・石英表面の自律的き裂セグメンテーション
- Authors: Zhaohui Chen, Elyas Asadi Shamsabadi, Sheng Jiang, Luming Shen, Daniel Dias-da-Costa,
- Abstract要約: 本稿では, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのVision Mambaベースのフレームワークを提案する。
VMambaベースのエンコーダデコーダネットワークは、最大90.6%の低い浮動小数点演算で高解像度の画像入力を処理することができる。
- 参考スコア(独自算出の注目度): 2.023914201416672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional neural networks (CNNs) and Transformers have shown advanced accuracy in crack detection under certain conditions. Yet, the fixed local attention can compromise the generalisation of CNNs, and the quadratic complexity of the global self-attention restricts the practical deployment of Transformers. Given the emergence of the new-generation architecture of Mamba, this paper proposes a Vision Mamba (VMamba)-based framework for crack segmentation on concrete, asphalt, and masonry surfaces, with high accuracy, generalisation, and less computational complexity. Having 15.6% - 74.5% fewer parameters, the encoder-decoder network integrated with VMamba could obtain up to 2.8% higher mDS than representative CNN-based models while showing about the same performance as Transformer-based models. Moreover, the VMamba-based encoder-decoder network could process high-resolution image input with up to 90.6% lower floating-point operations.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、特定の条件下でのき裂検出において高度な精度を示す。
しかし、固定された局所的な注意はCNNの一般化を損なう可能性があり、グローバルな自己注意の二次的な複雑さはトランスフォーマーの実践的な展開を制限する。
マンバの次世代アーキテクチャの出現を踏まえ, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのビジョンマンバ(VMamba)ベースのフレームワークを提案する。
パラメータが15.6%から74.5%少ないため、VMambaと統合されたエンコーダデコーダネットワークは、Transformerベースのモデルと同等の性能を示しながら、CNNベースのモデルよりも最大2.8%高いmDSを得ることができた。
さらに、VMambaベースのエンコーダデコーダネットワークは、最大90.6%の浮動小数点演算で高解像度の画像入力を処理することができる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model [18.063680125378347]
Mambaアーキテクチャは、一連の自然言語処理タスクにおいて顕著なパフォーマンスを示している。
我々は、バイナリ変更検出、セマンティック変更検出、建築損傷評価のために、MambaBCD、MambaSCD、MambaBDAと呼ばれる対応するフレームワークをカスタマイズする。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
論文 参考訳(メタデータ) (2024-04-04T13:06:25Z) - TransNeXt: Robust Foveal Visual Perception for Vision Transformers [0.0]
生体模倣設計に基づくトークンミキサーAggregated Attentionを提案する。
従来のクエリやキーと対話する学習可能なトークンを組み込んでいます。
集約された注意と畳み込みGLUを組み合わせて、TransNeXtと呼ばれる新しいビジュアルバックボーンを作成します。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。