論文の概要: Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces
- arxiv url: http://arxiv.org/abs/2406.16518v1
- Date: Mon, 24 Jun 2024 10:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-25 15:14:19.642786
- Title: Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces
- Title(参考訳): ビジョン・マンバを用いたコンクリート・アスファルト・石英表面の自律的き裂セグメンテーション
- Authors: Zhaohui Chen, Elyas Asadi Shamsabadi, Sheng Jiang, Luming Shen, Daniel Dias-da-Costa,
- Abstract要約: 本稿では, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのVision Mambaベースのフレームワークを提案する。
VMambaベースのエンコーダデコーダネットワークは、最大90.6%の低い浮動小数点演算で高解像度の画像入力を処理することができる。
- 参考スコア(独自算出の注目度): 2.023914201416672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional neural networks (CNNs) and Transformers have shown advanced accuracy in crack detection under certain conditions. Yet, the fixed local attention can compromise the generalisation of CNNs, and the quadratic complexity of the global self-attention restricts the practical deployment of Transformers. Given the emergence of the new-generation architecture of Mamba, this paper proposes a Vision Mamba (VMamba)-based framework for crack segmentation on concrete, asphalt, and masonry surfaces, with high accuracy, generalisation, and less computational complexity. Having 15.6% - 74.5% fewer parameters, the encoder-decoder network integrated with VMamba could obtain up to 2.8% higher mDS than representative CNN-based models while showing about the same performance as Transformer-based models. Moreover, the VMamba-based encoder-decoder network could process high-resolution image input with up to 90.6% lower floating-point operations.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、特定の条件下でのき裂検出において高度な精度を示す。
しかし、固定された局所的な注意はCNNの一般化を損なう可能性があり、グローバルな自己注意の二次的な複雑さはトランスフォーマーの実践的な展開を制限する。
マンバの次世代アーキテクチャの出現を踏まえ, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのビジョンマンバ(VMamba)ベースのフレームワークを提案する。
パラメータが15.6%から74.5%少ないため、VMambaと統合されたエンコーダデコーダネットワークは、Transformerベースのモデルと同等の性能を示しながら、CNNベースのモデルよりも最大2.8%高いmDSを得ることができた。
さらに、VMambaベースのエンコーダデコーダネットワークは、最大90.6%の浮動小数点演算で高解像度の画像入力を処理することができる。
関連論文リスト
- Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing [21.15110217419682]
本稿では,HybridEVS RAW画像の効率的な復調を実現するために,軽量なマンバ型バイナリニューラルネットワークを提案する。
Bi-Mambaは全ての射影をバイナライズし、コアSelective Scanを完全精度で保持する。
我々は,BMTNetの性能と計算効率の両面において,定量的かつ定性的な実験を行い,BMTNetの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-20T13:32:27Z) - A Lightweight and Effective Image Tampering Localization Network with Vision Mamba [5.369780585789917]
現在の画像改ざん手法は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに依存している。
視覚的マンバ(ForMa)をベースとした,視覚障害者の視覚的触覚ローカライゼーションのための軽量かつ効果的なフォレストネットワークを提案する。
論文 参考訳(メタデータ) (2025-02-14T06:35:44Z) - Deformable Mamba for Wide Field of View Segmentation [27.340067787116297]
Mambaアーキテクチャは、2次複雑さに苦しむトランスフォーマーアーキテクチャに代わる有望な選択肢である。
マンバデコーダは、特に歪みが発生しやすい高密度予測タスクに対して、未探索である。
本稿では,効率の良い歪み認識デコーダであるデフォルマブル・マンバデコーダを提案する。
我々のデコーダは、広く使われているデコーダヘッドと比較して、72%のパラメータと97%のFLOPを削減しつつ、360deg Stanford2D3Dセグメンテーションベンチマークで+2.5%の性能改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T15:21:48Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model [18.063680125378347]
Mambaアーキテクチャは、一連の自然言語処理タスクにおいて顕著なパフォーマンスを示している。
我々は、バイナリ変更検出、セマンティック変更検出、建築損傷評価のために、MambaBCD、MambaSCD、MambaBDAと呼ばれる対応するフレームワークをカスタマイズする。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
論文 参考訳(メタデータ) (2024-04-04T13:06:25Z) - TransNeXt: Robust Foveal Visual Perception for Vision Transformers [0.0]
生体模倣設計に基づくトークンミキサーAggregated Attentionを提案する。
従来のクエリやキーと対話する学習可能なトークンを組み込んでいます。
集約された注意と畳み込みGLUを組み合わせて、TransNeXtと呼ばれる新しいビジュアルバックボーンを作成します。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。