論文の概要: Dual-Branch Reconstruction Network for Industrial Anomaly Detection with
RGB-D Data
- arxiv url: http://arxiv.org/abs/2311.06797v1
- Date: Sun, 12 Nov 2023 10:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:56:58.621952
- Title: Dual-Branch Reconstruction Network for Industrial Anomaly Detection with
RGB-D Data
- Title(参考訳): RGB-Dデータを用いた産業異常検出のためのデュアルブランチ再構成ネットワーク
- Authors: Chenyang Bi, Yueyang Li and Haichi Luo
- Abstract要約: 3次元点雲とRGB画像に基づくマルチモーダル産業異常検出が出現し始めている。
上記の方法は、より長い推論時間と高いメモリ使用量を必要とするため、業界におけるリアルタイムな要求を満たすことはできない。
本稿では、RGB-D入力に基づく軽量な二重分岐再構成ネットワークを提案し、通常例と異常例の判定境界を学習する。
- 参考スコア(独自算出の注目度): 1.861332908680942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised anomaly detection methods are at the forefront of industrial
anomaly detection efforts and have made notable progress. Previous work
primarily used 2D information as input, but multi-modal industrial anomaly
detection based on 3D point clouds and RGB images is just beginning to emerge.
The regular approach involves utilizing large pre-trained models for feature
representation and storing them in memory banks. However, the above methods
require a longer inference time and higher memory usage, which cannot meet the
real-time requirements of the industry. To overcome these issues, we propose a
lightweight dual-branch reconstruction network(DBRN) based on RGB-D input,
learning the decision boundary between normal and abnormal examples. The
requirement for alignment between the two modalities is eliminated by using
depth maps instead of point cloud input. Furthermore, we introduce an
importance scoring module in the discriminative network to assist in fusing
features from these two modalities, thereby obtaining a comprehensive
discriminative result. DBRN achieves 92.8% AUROC with high inference efficiency
on the MVTec 3D-AD dataset without large pre-trained models and memory banks.
- Abstract(参考訳): 非監督的異常検出法は産業的異常検出の最前線にあり、顕著な進歩を遂げている。
これまでは主に2D情報を入力として用いていたが、3DポイントクラウドとRGB画像に基づくマルチモーダル産業異常検出が登場し始めている。
通常のアプローチでは、機能表現のためにトレーニング済みの大きなモデルを使用し、それらをメモリバンクに格納する。
しかし、上記の手法はより長い推論時間と高いメモリ使用量を必要とするため、業界のリアルタイム要件を満たすことはできない。
これらの問題を解決するために、RGB-D入力に基づく軽量な二重分岐再構成ネットワーク(DBRN)を提案し、通常例と異常例の判定境界を学習する。
2つのモダリティ間のアライメントの要件は、ポイントクラウド入力の代わりに深度マップを使用することによって排除される。
さらに,これらの2つの特徴から特徴を融合させ,総合的な判別結果を得るために,識別ネットワークにおいて重要度スコアリングモジュールを導入する。
DBRNは92.8%のAUROCを実現し、MVTec 3D-ADデータセット上で大きなトレーニング済みモデルやメモリバンクなしで高い推論効率を実現している。
関連論文リスト
- Memoryless Multimodal Anomaly Detection via Student-Teacher Network and Signed Distance Learning [8.610387986933741]
マルチモーダル異常検出のための新しいメモリレスMDSSを提案する。
ライトウェイトな学生-教師ネットワークと、RGBイメージと3Dポイントクラウドから学ぶための署名付き距離関数を採用している。
実験の結果,MDSSはSOTAメモリバンク方式のShape-guidedと同等だが安定であることがわかった。
論文 参考訳(メタデータ) (2024-09-09T07:18:09Z) - M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising [63.39134873744748]
既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。
本稿では,CLIPの強力なマルチモーダル識別機能を利用する新しい耐雑音性M3DM-NRフレームワークを提案する。
M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2024-06-04T12:33:02Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - EasyNet: An Easy Network for 3D Industrial Anomaly Detection [49.26348455493123]
3D異常検出は、産業生産において、新しくて重要なコンピュータビジョンタスクである。
我々は,事前訓練されたモデルやメモリバンクを使わずに,容易に展開可能なネットワーク(EasyNet)を提案する。
実験の結果、EasyNetはトレーニング済みのモデルやメモリバンクを使わずに92.6%の異常検出AUROCを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-26T02:46:50Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。