論文の概要: CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation
- arxiv url: http://arxiv.org/abs/2410.08100v1
- Date: Sat, 12 Oct 2024 05:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:25:16.792423
- Title: CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation
- Title(参考訳): CrackSegDiff:拡散確率モデルに基づくマルチモーダルき裂分離
- Authors: Xiaoyan Jiang, Licheng Jiang, Anjie Wang, Kaiying Zhu, Yongbin Gao,
- Abstract要約: 本稿では, クラックセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
グローバルな特徴のためにTransformerを使用する従来の方法とは異なり,本手法ではVm-unet citeruan2024vmを用いて,元のデータの長距離情報を効率的に取得する。
FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、CrackSegDiffが最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 5.534972596061796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff \cite{amit2021segdiff}. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet \cite{ruan2024vm} to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff.
- Abstract(参考訳): 道路検査ロボットにおけるグレースケールおよび深度データの統合は、道路状況評価の正確性、信頼性、包括性を向上し、メンテナンス戦略の改善とインフラの安全性の向上につながる。
しかし、これらのデータソースは、しばしば舗装からのかなりのバックグラウンドノイズによって妥協される。
拡散確率モデル(DPM)の最近の進歩は、SegDiff \cite{amit2021segdiff}のような研究で証明されているように、画像分割タスクにおいて顕著な成功を見せている。
これらの進歩にもかかわらず、現在のDPMベースのセグメンタは、元の画像データの可能性を完全には生かしていない。
本稿では, フラクチャーセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
本手法は,DPMによる局所特徴抽出とグローバル特徴抽出との相互作用を強化することにより,逆拡散過程を強化する。
グローバルな特徴のためにTransformerを利用する従来の方法とは異なり,本手法ではVm-unet \cite{ruan2024vm}を用いて,元のデータの長距離情報を効率的に取得する。
機能の統合は、Channel Fusion Module (CFM)とShallow Feature Compensation Module (SFCM)の2つの革新的なモジュールによってさらに洗練されている。
FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、き裂SegDiffが最先端の手法、特に浅いき裂の検出に優れることを示す。
コードはhttps://github.com/sky-visionX/CrackSegDiffで入手できる。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
本手法は精度と効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Towards Generalizable Deepfake Detection by Primary Region
Regularization [52.41801719896089]
本稿では,新しい正規化の観点から一般化能力を高める。
本手法は, 一次領域マップの静的な位置決めと, 一次領域マスクの動的利用の2段階からなる。
5つのバックボーンを持つDFDC,DF-1.0,Celeb-DFの3種類のディープフェイクデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-07-24T05:43:34Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Dual flow fusion model for concrete surface crack segmentation [0.0]
亀裂やその他の損傷は交通インフラの安全運用に重大な脅威をもたらす。
ディープラーニングモデルは、実用的な視覚的セグメンテーションタスクに広く応用されている。
本稿では,二重ストリームの融合に基づくひび割れ分割モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T02:35:58Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。