論文の概要: MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention
- arxiv url: http://arxiv.org/abs/2603.01361v1
- Date: Mon, 02 Mar 2026 01:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.645086
- Title: MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention
- Title(参考訳): MixerCSeg: 分離されたマンバ注意によるき裂分離のための効率的なミキサーアーキテクチャ
- Authors: Zilong Zhao, Zhengming Ding, Pei Niu, Wenhao Sun, Feng Guo,
- Abstract要約: 特徴エンコーダは、微細なテクスチャや細い構造の表現を形作ることにより、ピクセルレベルのクラックセグメンテーションにおいて重要な役割を果たす。
既存のCNN-、Transformer-、Mambaベースのモデルはそれぞれ、必要な空間情報や構造情報の一部をキャプチャする。
このアーキテクチャでは、CNNのような経路が局所的なテクスチャに焦点を当て、Transformerスタイルの経路がグローバルな依存関係をキャプチャし、Mambaにインスパイアされたフローが単一のエンコーダ内のシーケンシャルコンテキストをモデル化する。
- 参考スコア(独自算出の注目度): 29.429696710399327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature encoders play a key role in pixel-level crack segmentation by shaping the representation of fine textures and thin structures. Existing CNN-, Transformer-, and Mamba-based models each capture only part of the required spatial or structural information, leaving clear gaps in modeling complex crack patterns. To address this, we present MixerCSeg, a mixer architecture designed like a coordinated team of specialists, where CNN-like pathways focus on local textures, Transformer-style paths capture global dependencies, and Mamba-inspired flows model sequential context within a single encoder. At the core of MixerCSeg is the TransMixer, which explores Mamba's latent attention behavior while establishing dedicated pathways that naturally express both locality and global awareness. To further enhance structural fidelity, we introduce a spatial block processing strategy and a Direction-guided Edge Gated Convolution (DEGConv) that strengthens edge sensitivity under irregular crack geometries with minimal computational overhead. A Spatial Refinement Multi-Level Fusion (SRF) module is then employed to refine multi-scale details without increasing complexity. Extensive experiments on multiple crack segmentation benchmarks show that MixerCSeg achieves state-of-the-art performance with only 2.05 GFLOPs and 2.54 M parameters, demonstrating both efficiency and strong representational capability. The code is available at https://github.com/spiderforest/MixerCSeg.
- Abstract(参考訳): 特徴エンコーダは、微細なテクスチャや細い構造の表現を形作ることにより、ピクセルレベルのクラックセグメンテーションにおいて重要な役割を果たす。
既存のCNN-、Transformer-、Mambaベースのモデルはそれぞれ、必要な空間的または構造的な情報の一部のみをキャプチャし、複雑な亀裂パターンをモデル化する際の明確なギャップを残している。
そこでは、CNNのような経路が局所的なテクスチャに焦点を当て、Transformerスタイルの経路がグローバルな依存関係をキャプチャし、Mambaにインスパイアされたフローが単一のエンコーダ内のシーケンシャルコンテキストをモデル化する。
MixerCSegの中核となるTransMixerは、マムバの潜在的注意行動を探り、局所性とグローバルな認識の両方を自然に表現する専用経路を確立している。
構造的忠実度をさらに高めるため,不規則なき裂地におけるエッジ感度を最小限の計算オーバーヘッドで向上する空間ブロック処理戦略と方向誘導エッジゲーテッド・コンボリューション(DEGConv)を導入する。
次に、SRFモジュールを用いて、複雑さを増大させることなく、マルチスケールの詳細を洗練させる。
複数のクラックセグメンテーションのベンチマークにおいて、MixerCSegは2.05 GFLOPsと2.54Mパラメータだけで最先端のパフォーマンスを達成し、効率性と強力な表現能力を実証した。
コードはhttps://github.com/spiderforest/MixerCSeg.comで公開されている。
関連論文リスト
- MEGA-PCC: A Mamba-based Efficient Approach for Joint Geometry and Attribute Point Cloud Compression [9.422873276112067]
MEGA-PCCは、完全エンドツーエンドの学習ベースのフレームワークで、ジョイント圧縮のための2つの特別なモデルを備えている。
従来のベースラインと学習ベースのベースラインの両方と比較して、速度歪み性能と実行効率が優れている。
論文 参考訳(メタデータ) (2025-12-27T04:43:36Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - HyM-UNet: Synergizing Local Texture and Global Context via Hybrid CNN-Mamba Architecture for Medical Image Segmentation [3.976000861085382]
HyM-UNet は,CNN の局所的特徴抽出能力を,Mamba の効率的なグローバルモデリング能力と相乗化するために設計された。
エンコーダとデコーダのセマンティックギャップを埋めるため,Mamba-Guided Fusion Skip Connectionを提案する。
その結果,HyM-UNetはDice係数とIoUで既存の最先端手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-11-22T09:02:06Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。