論文の概要: DeltaSeg: Tiered Attention and Deep Delta Learning for Multi-Class Structural Defect Segmentation
- arxiv url: http://arxiv.org/abs/2604.18745v1
- Date: Mon, 20 Apr 2026 18:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.433911
- Title: DeltaSeg: Tiered Attention and Deep Delta Learning for Multi-Class Structural Defect Segmentation
- Title(参考訳): DeltaSeg: マルチクラス構造欠陥セグメンテーションのためのTiered AttentionとDeep Delta Learning
- Authors: Enrique Hernandez Noguera, Md Meftahul Ferdaus, Elias Ioup, Mahdi Abdelguerfi,
- Abstract要約: 本稿では,Squeeze-and-Excitation(SE)チャネルアテンションをエンコーダに組み込んだU字型エンコーダデコーダアーキテクチャ,ボトルネックとデコーダのコーディネートアテンション,スキップ接続における新しいDeep Delta Attention(DDA)機構を提案する。
両方のベンチマークでDeltaSegは、U-Net、SA-UNet、UNet3+、SegFormer、Swin-UNet、EGE-UNet、FPN、Mobile-UNETRを含む12の競合アーキテクチャを一貫して上回っている。
- 参考スコア(独自算出の注目度): 1.2904450317782683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated segmentation of structural defects from visual inspection imagery remains challenging due to the diversity of damage types, extreme class imbalance, and the need for precise boundary delineation. This paper presents DeltaSeg, a U-shaped encoder-decoder architecture with a tiered attention strategy that integrates Squeeze-and-Excitation (SE) channel attention in the encoder, Coordinate Attention at the bottleneck and decoder, and a novel Deep Delta Attention (DDA) mechanism in the skip connections. The encoder uses depthwise separable convolutions with dilated stages to maintain spatial resolution while expanding the receptive field. Atrous Spatial Pyramid Pooling (ASPP) at the bottleneck captures multi-scale context. The DDA module refines skip connections through a dual-path scheme combining a learned delta operator for nuisance feature suppression with spatial attention gates conditioned on decoder signals. Deep supervision through multi-scale auxiliary heads further strengthens gradient flow and encourages semantically meaningful features at intermediate decoder stages. We evaluate DeltaSeg on two datasets: the S2DS dataset (7 classes) and the Culvert-Sewer Defect Dataset (CSDD, 9 classes). Across both benchmarks, DeltaSeg consistently outperforms 12 competing architectures including U-Net, SA-UNet, UNet3+, SegFormer, Swin-UNet, EGE-UNet, FPN, and Mobile-UNETR, demonstrating strong generalization across damage types, imaging conditions, and structural geometries.
- Abstract(参考訳): 視覚検査画像から構造欠陥の自動分割は、損傷の多様性、極端な階級不均衡、正確な境界線化の必要性により、依然として困難である。
本稿では,Squeeze-and-Excitation(SE)チャネルをエンコーダに組み込んだU字型エンコーダデコーダアーキテクチャであるDeltaSeg,ボトルネックデコーダのコーディネートアテンション,スキップ接続における新しいDeep Delta Attention(DDA)機構を提案する。
エンコーダは、奥行き分離可能な畳み込みと拡張ステージを用いて、受容場を拡張しながら空間分解性を維持する。
ボトルネックにおけるアトラス空間ピラミッドプール(ASPP)は、マルチスケールのコンテキストをキャプチャする。
DDAモジュールは、ヌイザンス特性抑制のための学習デルタ演算子とデコーダ信号に条件付空間アテンションゲートを組み合わせたデュアルパス方式により、スキップ接続を洗練する。
マルチスケール補助ヘッドによる深い監督は、さらに勾配流を強化し、中間デコーダの段階で意味論的に意味のある特徴を促進する。
S2DSデータセット(7クラス)とCulvert-Sewer Defect Dataset(CSDD,9クラス)の2つのデータセットでDeltaSegを評価する。
両方のベンチマークで、DeltaSegは、U-Net、SA-UNet、UNet3+、SegFormer、Swin-UNet、EGE-UNet、FPN、Mobile-UNETRを含む12の競合アーキテクチャを一貫して上回り、損傷タイプ、撮像条件、構造的ジオメトリを強く一般化している。
関連論文リスト
- DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation [2.2015188658021003]
本稿では, DCAU-Netを提案する。
まず,2つの独立なソフトマックスアテンションマップの違いを計算するために,新しい微分クロスアテンション(DCA)を設計した。
第2に,Channel-Spatial Feature Fusion (CSFF) 戦略を導入し,特徴を適応的に再検討する。
論文 参考訳(メタデータ) (2026-03-10T11:37:10Z) - SPG-CDENet: Spatial Prior-Guided Cross Dual Encoder Network for Multi-Organ Segmentation [5.970991208589063]
本稿では,多臓器分割の精度を向上させるために,新しい2段階分割パラダイムを提案する。
SPG-CDENetは空間先行ネットワークとクロスデュアルエンコーダネットワークの2つのキーコンポーネントから構成される。
グローバルエンコーダは画像全体からグローバルセマンティック機能をキャプチャし、ローカルエンコーダは以前のネットワークの機能にフォーカスする。
論文 参考訳(メタデータ) (2025-10-30T11:33:29Z) - O2Former:Direction-Aware and Multi-Scale Query Enhancement for SAR Ship Instance Segmentation [0.3611754783778107]
合成開口レーダ(SAR)画像における船舶の船体セグメンテーションは、海上監視、環境分析、国家安全保障などの用途において重要である。
SAR船体画像は、スケール変動、物体密度、ファジィターゲット境界などの課題を示す。
我々は,SAR画像の構造的特徴を十分に活用して,Mask2Formerを拡張したカスタマイズされたインスタンスセグメンテーションフレームワークであるO2Formerを提案する。
論文 参考訳(メタデータ) (2025-06-13T16:06:51Z) - MSA-UNet3+: Multi-Scale Attention UNet3+ with New Supervised Prototypical Contrastive Loss for Coronary DSA Image Segmentation [8.850534640462081]
冠状DSA画像のセグメンテーションを高めるために,教師付きおよび原型的コントラスト学習を融合させるスーパービジョン型コントラスト損失を提案する。
MSA-UNet3+: Multi-Scale Attention-Enhanced UNet3+アーキテクチャで提案したSPCL損失を実装した。
プライベート冠DSAデータセットの実験では、MSA-UNet3+が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-04-07T15:35:30Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Uncertainty Driven Bottleneck Attention U-net for Organ at Risk
Segmentation [20.865775626533434]
CT画像におけるオルガン・アット・リスク(OAR)セグメンテーションは,自動セグメンテーション法では難しい課題である。
本稿では,複数のデコーダU-netアーキテクチャを提案し,ネットワークのボトルネックに注目するために,デコーダ間のセグメンテーションの不一致を利用する。
正確なセグメンテーションのために,CT強度統合正規化損失も提案した。
論文 参考訳(メタデータ) (2023-03-19T23:45:32Z) - BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung
Infection Segmentation from CT Images [83.82141604007899]
BCS-Netは、CT画像から自動的に新型コロナウイルスの肺感染症を分離するための新しいネットワークである。
BCS-Netはエンコーダ-デコーダアーキテクチャに従っており、多くの設計はデコーダのステージに焦点を当てている。
BCSRブロックでは、アテンション誘導グローバルコンテキスト(AGGC)モジュールがデコーダの最も価値のあるエンコーダ機能を学ぶように設計されている。
論文 参考訳(メタデータ) (2022-07-17T08:54:07Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。