論文の概要: DSCformer: A Dual-Branch Network Integrating Enhanced Dynamic Snake Convolution and SegFormer for Crack Segmentation
- arxiv url: http://arxiv.org/abs/2411.09371v1
- Date: Thu, 14 Nov 2024 11:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:32.898543
- Title: DSCformer: A Dual-Branch Network Integrating Enhanced Dynamic Snake Convolution and SegFormer for Crack Segmentation
- Title(参考訳): DSCformer:クラックセグメンテーションのための動的スネーク畳み込みとセグフォーマを統合したデュアルブランチネットワーク
- Authors: Kaiwei Yu, I-Ming Chen, Jing Wu,
- Abstract要約: 現在の畳み込みニューラルネットワーク(CNN)はクラックセグメンテーションタスクにおいて強い性能を示している。
トランスフォーマーは、グローバルコンテキストのキャプチャに優れるが、詳細な特徴抽出の精度に欠ける。
本稿では,DSConv(Dynamic Snake Convolution)とTransformerアーキテクチャを統合した新しいハイブリッドモデルであるDSCformerを紹介する。
- 参考スコア(独自算出の注目度): 6.898227391740093
- License:
- Abstract: In construction quality monitoring, accurately detecting and segmenting cracks in concrete structures is paramount for safety and maintenance. Current convolutional neural networks (CNNs) have demonstrated strong performance in crack segmentation tasks, yet they often struggle with complex backgrounds and fail to capture fine-grained tubular structures fully. In contrast, Transformers excel at capturing global context but lack precision in detailed feature extraction. We introduce DSCformer, a novel hybrid model that integrates an enhanced Dynamic Snake Convolution (DSConv) with a Transformer architecture for crack segmentation to address these challenges. Our key contributions include the enhanced DSConv through a pyramid kernel for adaptive offset computation and a simultaneous bi-directional learnable offset iteration, significantly improving the model's performance to capture intricate crack patterns. Additionally, we propose a Weighted Convolutional Attention Module (WCAM), which refines channel attention, allowing for more precise and adaptive feature attention. We evaluate DSCformer on the Crack3238 and FIND datasets, achieving IoUs of 59.22\% and 87.24\%, respectively. The experimental results suggest that our DSCformer outperforms state-of-the-art methods across different datasets.
- Abstract(参考訳): 建設品質モニタリングでは,コンクリート構造物のき裂を正確に検出・分断することが安全維持に最重要である。
現在の畳み込みニューラルネットワーク(CNN)は、クラックセグメンテーションタスクにおいて強力な性能を示してきたが、複雑なバックグラウンドに悩まされ、きめ細かな管状構造を完全に捉えることができないことが多い。
対照的に、Transformerはグローバルコンテキストのキャプチャに優れるが、詳細な特徴抽出の精度に欠ける。
本稿では,DSConv(Dynamic Snake Convolution)とTransformerアーキテクチャを統合した新しいハイブリッドモデルであるDSCformerを紹介し,これらの課題に対処する。
我々の主な貢献は、適応オフセット計算のためのピラミッドカーネルによる拡張DSConvと、同時に双方向学習可能なオフセットの繰り返しである。
さらに,より正確かつ適応的な特徴注意を可能にするWCAM(Weighted Convolutional Attention Module)を提案する。
我々は、Crack3238データセットとFINDデータセットのDSCformerを評価し、それぞれ59.22\%と87.24\%のIoUを達成した。
実験結果から, DSCformerは, 異なるデータセット間で, 最先端の手法よりも優れていたことが示唆された。
関連論文リスト
- Topology-aware Mamba for Crack Segmentation in Structures [5.9184143707401775]
マンバをベースとしたモデルであるCrackMambaは、インフラストラクチャの構造的健全性を監視するために、効率的で正確なクラックセグメンテーションのために設計されている。
CrackMambaは、VMambaV2をエンコーダと新しいデコーダとして、トレーニング済みのImageNet-1k重みで利用することで、これらの課題に対処している。
実験により、CrackMambaはCrackSeg9kおよびSwerCrackデータセット上での最先端(SOTA)パフォーマンスを実現し、網膜血管セグメンテーションデータセットCHASEunderlineDB1上での競合性能を示す。
論文 参考訳(メタデータ) (2024-10-25T15:17:52Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Revisiting Generative Adversarial Networks for Binary Semantic
Segmentation on Imbalanced Datasets [20.538287907723713]
異常き裂領域検出は典型的なバイナリセマンティックセグメンテーションタスクであり、アルゴリズムによって舗装面画像上のひび割れを表す画素を自動的に検出することを目的としている。
既存のディープラーニングベースの手法は、特定の公共舗装のデータセットで優れた結果を得たが、不均衡なデータセットでは性能が劇的に低下する。
画素レベルの異常き裂領域検出タスクに対して,条件付き生成逆ネットワーク(cGAN)に基づくディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-03T19:24:40Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - A Convolutional-Transformer Network for Crack Segmentation with Boundary
Awareness [5.98717173705421]
クラックは、製造された建物の安全性と耐久性を評価する上で重要な役割を果たしている。
本稿では,この課題を解決するために,エンコーダデコーダアーキテクチャに基づく新しい畳み込みトランスフォーマネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T01:27:57Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。