Fugu-MT 論文翻訳(概要): CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation

論文の概要: CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation

arxiv url: http://arxiv.org/abs/2410.08100v2
Date: Sat, 12 Oct 2024 05:08:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 05:25:16.789915
Title: CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation
Title（参考訳）: CrackSegDiff:拡散確率モデルに基づくマルチモーダルき裂分離
Authors: Xiaoyan Jiang, Licheng Jiang, Anjie Wang, Kaiying Zhu, Yongbin Gao,
Abstract要約: 本稿では, クラックセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。提案手法では,Vm-unetを用いて,元のデータの長距離情報を効率的に取得する。 CrackSegDiffは、特に浅い亀裂の検出において、最先端の手法よりも優れている。
参考スコア（独自算出の注目度）: 5.534972596061796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff.
Abstract（参考訳）: 道路検査ロボットにおけるグレースケールおよび深度データの統合は、道路条件評価の正確性、信頼性、包括性を向上し、メンテナンス戦略の改善とインフラの安全性の向上につながる。しかし、これらのデータソースは、しばしば舗装からのかなりのバックグラウンドノイズによって妥協される。拡散確率モデル(DPM)の最近の進歩は、SegDiffのような研究で証明されているように、画像分割タスクにおいて顕著な成功を見せている。これらの進歩にもかかわらず、現在のDPMベースのセグメンタは、元の画像データの可能性を完全には生かしていない。本稿では, フラクチャーセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。本手法は,DPMによる局所特徴抽出とグローバル特徴抽出との相互作用を強化することにより,逆拡散過程を強化する。グローバルな特徴のためにTransformerを利用する従来の方法とは異なり、我々の手法はVm-unetを使って元のデータの長距離情報を効率的にキャプチャする。機能の統合は、Channel Fusion Module (CFM)とShallow Feature Compensation Module (SFCM)の2つの革新的なモジュールによってさらに洗練されている。 FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、き裂SegDiffが最先端の手法、特に浅いき裂の検出に優れることを示す。コードはhttps://github.com/sky-visionX/CrackSegDiffで入手できる。

関連論文リスト

Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文参考訳（メタデータ） (2025-11-11T09:33:39Z)
Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文参考訳（メタデータ） (2025-03-17T18:08:03Z)
CrossDiff: Diffusion Probabilistic Model With Cross-conditional Encoder-Decoder for Crack Segmentation [5.69969816883978]
クロス条件エンコーダデコーダを用いた新しい拡散モデルCrossDiffを提案する。提案したCrossDiffモデルは、DiceスコアとIoUの両点において、他の最先端メソッドよりも8.0%優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-22T13:13:41Z)
Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method [11.01048485795428]
そこで我々は,新たな暴力検出フレームワークを提案する。一助多目的学習(unimodal multiple-instance learning)は、一助多目的学習(unimodal semantic features)、多モーダルアライメント(multimodal alignment)、多モーダル融合(multimodal fusion)、最終検出(final detection)からなる。ベンチマークデータセットによる実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-13T17:14:25Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。 DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。本手法は精度と効率のバランスが優れていることを示す。
論文参考訳（メタデータ） (2024-03-05T06:17:59Z)
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。 MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-12-11T18:38:28Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Towards Generalizable Deepfake Detection by Primary Region Regularization [52.41801719896089]
本稿では,新しい正規化の観点から一般化能力を高める。本手法は, 一次領域マップの静的な位置決めと, 一次領域マスクの動的利用の2段階からなる。 5つのバックボーンを持つDFDC,DF-1.0,Celeb-DFの3種類のディープフェイクデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2023-07-24T05:43:34Z)
Multi-Dimensional Refinement Graph Convolutional Network with Robust Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。 CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文参考訳（メタデータ） (2023-06-27T09:23:36Z)
Dual flow fusion model for concrete surface crack segmentation [0.0]
亀裂やその他の損傷は交通インフラの安全運用に重大な脅威をもたらす。ディープラーニングモデルは、実用的な視覚的セグメンテーションタスクに広く応用されている。本稿では,二重ストリームの融合に基づくひび割れ分割モデルを提案する。
論文参考訳（メタデータ） (2023-05-09T02:35:58Z)
Learnable Multi-level Frequency Decomposition and Hierarchical Attention Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文参考訳（メタデータ） (2021-09-16T13:06:43Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。