論文の概要: CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation
- arxiv url: http://arxiv.org/abs/2410.08100v2
- Date: Sat, 12 Oct 2024 05:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 10:53:40.667732
- Title: CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation
- Title(参考訳): CrackSegDiff:拡散確率モデルに基づくマルチモーダルき裂分離
- Authors: Xiaoyan Jiang, Licheng Jiang, Anjie Wang, Kaiying Zhu, Yongbin Gao,
- Abstract要約: 本稿では, クラックセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
提案手法では,Vm-unetを用いて,元のデータの長距離情報を効率的に取得する。
CrackSegDiffは、特に浅い亀裂の検出において、最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 5.534972596061796
- License:
- Abstract: Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff.
- Abstract(参考訳): 道路検査ロボットにおけるグレースケールおよび深度データの統合は、道路条件評価の正確性、信頼性、包括性を向上し、メンテナンス戦略の改善とインフラの安全性の向上につながる。
しかし、これらのデータソースは、しばしば舗装からのかなりのバックグラウンドノイズによって妥協される。
拡散確率モデル(DPM)の最近の進歩は、SegDiffのような研究で証明されているように、画像分割タスクにおいて顕著な成功を見せている。
これらの進歩にもかかわらず、現在のDPMベースのセグメンタは、元の画像データの可能性を完全には生かしていない。
本稿では, フラクチャーセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
本手法は,DPMによる局所特徴抽出とグローバル特徴抽出との相互作用を強化することにより,逆拡散過程を強化する。
グローバルな特徴のためにTransformerを利用する従来の方法とは異なり、我々の手法はVm-unetを使って元のデータの長距離情報を効率的にキャプチャする。
機能の統合は、Channel Fusion Module (CFM)とShallow Feature Compensation Module (SFCM)の2つの革新的なモジュールによってさらに洗練されている。
FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、き裂SegDiffが最先端の手法、特に浅いき裂の検出に優れることを示す。
コードはhttps://github.com/sky-visionX/CrackSegDiffで入手できる。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Dual flow fusion model for concrete surface crack segmentation [0.0]
亀裂やその他の損傷は交通インフラの安全運用に重大な脅威をもたらす。
ディープラーニングモデルは、実用的な視覚的セグメンテーションタスクに広く応用されている。
本稿では,二重ストリームの融合に基づくひび割れ分割モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T02:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。