論文の概要: D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.00126v1
- Date: Tue, 27 Jan 2026 23:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.960139
- Title: D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection
- Title(参考訳): D3R-Net:ロバストな産業異常検出のためのデュアルドメイン復調ネットワーク
- Authors: Dmytro Filatov, Valentyn Fedorov, Vira Filatova, Andrii Zelenchuk,
- Abstract要約: 非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised anomaly detection (UAD) is a key ingredient of automated visual inspection in modern manufacturing. The reconstruction-based methods appeal because they have basic architectural design and they process data quickly but they produce oversmoothed results for high-frequency details. As a result, subtle defects are partially reconstructed rather than highlighted, which limits segmentation accuracy. We build on this line of work and introduce D3R-Net, a Dual-Domain Denoising Reconstruction framework that couples a self-supervised 'healing' task with frequency-aware regularization. During training, the network receives synthetically corrupted normal images and is asked to reconstruct the clean targets, which prevents trivial identity mapping and pushes the model to learn the manifold of defect-free textures. In addition to the spatial mean squared error, we employ a Fast Fourier Transform (FFT) magnitude loss that encourages consistency in the frequency domain. The implementation also allows an optional structural similarity (SSIM) term, which we study in an ablation. On the MVTec AD Hazelnut benchmark, D3R-Net with the FFT loss improves localization consistency over a spatial-only baseline: PRO AUC increases from 0.603 to 0.687, while image-level ROC AUC remains robust. Evaluated across fifteen MVTec categories, the FFT variant raises the average pixel ROC AUC from 0.733 to 0.751 and PRO AUC from 0.417 to 0.468 compared to the MSE-only baseline, at roughly 20 FPS on a single GPU. The network is trained from scratch and uses a lightweight convolutional autoencoder backbone, providing a practical alternative to heavy pre-trained feature embedding methods.
- Abstract(参考訳): 非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
構造設計は基本的であり、データを迅速に処理するが、高頻度の細部に対して過度に平滑な結果を生成するため、復元に基づく手法は魅力的である。
その結果、微妙な欠陥が強調されるよりも部分的に再構成され、セグメンテーション精度が制限される。
D3R-Net(Dual-Domain Denoising Reconstruction)フレームワークは、自己管理型の"ヒーリング"タスクと周波数認識の正規化を結合するものです。
トレーニング中、ネットワークは合成劣化した正常な画像を受け取り、クリーンなターゲットを再構築するよう求められ、これは自明なアイデンティティマッピングを防止し、欠陥のないテクスチャの多様体を学習するためにモデルをプッシュする。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
この実装により、任意構造類似性(SSIM)という用語も可能となり、これをアブレーションで研究する。
MVTec AD Hazelnutベンチマークでは、FFT損失のD3R-Netは、空間のみのベースライン上でのローカライズ一貫性を改善している。
FFTは15のMVTecカテゴリで評価され、平均画素ROC AUCを0.733から0.751に、Proper AUCを0.417から0.468に、MSEのみのベースラインを1つのGPUで約20FPSに引き上げている。
ネットワークはスクラッチからトレーニングされ、軽量な畳み込みオートエンコーダのバックボーンを使用し、重く訓練された機能の埋め込み方法に代わる実用的な代替手段を提供する。
関連論文リスト
- DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing [26.57698394898644]
マルチステート・パーセプション・パラダイムに基づく新しい脱ハージング・フレームワークを提案する。
Fourier-RWKVはさまざまなヘイズシナリオにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-12-09T01:35:56Z) - DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection [16.16000521213211]
UAVリモートセンシング画像の小型物体検出は困難である。
現在の変圧器ベースの検出器は、3つの重要な問題に悩まされている。
本稿ではDFIR-DETRを導入し,周波数領域処理と組み合わせた動的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T01:25:10Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis [15.624549727053475]
既存のモデルマージ技術は、様々な医学的手段で一貫した利益をもたらすことができません。
サンプル単位の係数を計算するバックプロパゲーションフリーフレームワークであるTest-Time Task Adaptive merging (T3)を導入する。
ドメイン内、ベース・ツー・ノーベル、および4つのモダリティにまたがる汚職にまたがる厳密な相互評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-31T08:05:40Z) - Single-Step Reconstruction-Free Anomaly Detection and Segmentation via Diffusion Models [1.1487074612765584]
リアルタイム(RADAR)における注意に基づく拡散モデルを用いた再構成不要な異常検出手法を提案する。
RADARは再構成に基づく異常検出の限界を克服する。
実世界の3Dプリント材料とMVTec-ADデータセット上でRADARを評価する。
論文 参考訳(メタデータ) (2025-08-06T18:56:08Z) - How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings [106.3726679697804]
フーリエ特徴符号化(FFE)とマルチグリッドパラメトリック符号化(MPE)の2つの手法を比較した。
MPEは低次元マッピングの標準と見なされるが、MPEはそれらを上回り、高解像度で詳細な表現を学習することが多い。
我々は,MPEが学習可能な埋め込みではなく,グリッド構造を通じてネットワークの性能を向上させることを証明した。
論文 参考訳(メタデータ) (2025-04-18T02:18:08Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。