Fugu-MT 論文翻訳(概要): A Survey on RGB, 3D, and Multimodal Approaches for Unsupervised Industrial Image Anomaly Detection

論文の概要: A Survey on RGB, 3D, and Multimodal Approaches for Unsupervised Industrial Image Anomaly Detection

arxiv url: http://arxiv.org/abs/2410.21982v2
Date: Fri, 21 Mar 2025 04:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:09.785249
Title: A Survey on RGB, 3D, and Multimodal Approaches for Unsupervised Industrial Image Anomaly Detection
Title（参考訳）: 産業画像異常検出のためのRGB, 3D, マルチモーダル手法の検討
Authors: Yuxuan Lin, Yang Chang, Xuan Tong, Jiawen Yu, Antonio Liotta, Guofan Huang, Wei Song, Deyu Zeng, Zongze Wu, Yan Wang, Wenqiang Zhang,
Abstract要約: 無監督産業画像異常検出技術は、異常サンプルの不足を効果的に克服する。このアーティカルは、3つのモード設定でUIADタスクの包括的なレビューを提供する。
参考スコア（独自算出の注目度）: 24.634671653473397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the advancement of industrial informatization, unsupervised anomaly detection technology effectively overcomes the scarcity of abnormal samples and significantly enhances the automation and reliability of smart manufacturing. As an important branch, industrial image anomaly detection focuses on automatically identifying visual anomalies in industrial scenarios (such as product surface defects, assembly errors, and equipment appearance anomalies) through computer vision techniques. With the rapid development of Unsupervised industrial Image Anomaly Detection (UIAD), excellent detection performance has been achieved not only in RGB setting but also in 3D and multimodal (RGB and 3D) settings. However, existing surveys primarily focus on UIAD tasks in RGB setting, with little discussion in 3D and multimodal settings. To address this gap, this artical provides a comprehensive review of UIAD tasks in the three modal settings. Specifically, we first introduce the task concept and process of UIAD. We then overview the research on UIAD in three modal settings (RGB, 3D, and multimodal), including datasets and methods, and review multimodal feature fusion strategies in multimodal setting. Finally, we summarize the main challenges faced by UIAD tasks in the three modal settings, and offer insights into future development directions, aiming to provide researchers with a comprehensive reference and offer new perspectives for the advancement of industrial informatization. Corresponding resources are available at https://github.com/Sunny5250/Awesome-Multi-Setting-UIAD.
Abstract（参考訳）: 産業情報化の進展において、教師なし異常検出技術は異常サンプルの不足を効果的に克服し、スマート製造の自動化と信頼性を著しく向上させる。産業画像異常検出は重要な分野として、産業シナリオ(製品表面欠陥、組立誤差、機器の外観異常など)における視覚異常を自動的に識別することに焦点を当てている。産業用非監視画像異常検出(UIAD)の急速な発展に伴い,RGB設定だけでなく,RGBおよび3D設定においても優れた検出性能が達成されている。しかし、既存の調査は主にRGB設定におけるUIADタスクに焦点を当てており、3Dおよびマルチモーダル設定ではほとんど議論されていない。このギャップに対処するため、このアーティカルは、3つのモード設定でUIADタスクの包括的なレビューを提供する。具体的には,まずUIADのタスク概念とプロセスを紹介する。次に,3つのモーダル設定(RGB,3D,マルチモーダル)におけるUIADの研究の概要を述べるとともに,マルチモーダル設定におけるマルチモーダル特徴融合戦略を概説する。最後に、UIADタスクが直面する主な課題を3つのモード設定でまとめ、今後の開発方向性についての洞察を提供し、研究者に包括的なリファレンスを提供し、産業情報化の進展に向けた新たな視点を提供することを目的としている。対応するリソースはhttps://github.com/Sunny5250/Awesome-Multi-Setting-UIADにある。

関連論文リスト

BridgeNet: A Unified Multimodal Framework for Bridging 2D and 3D Industrial Anomaly Detection [26.864423488101075]
本稿では,新しい統合型マルチモーダル異常検出フレームワークを提案する。コントリビューションは3つの重要な側面で構成されています。実験の結果,MVTec-3D ADおよびEyecandiesデータセット上でのSOTA(State-of-the-art)よりも優れていた。
論文参考訳（メタデータ） (2025-07-25T13:27:25Z)
3D-ADAM: A Dataset for 3D Anomaly Detection in Advanced Manufacturing [5.096333816641487]
3D-ADAMは、高精度な3D異常検出のための、最初の大規模産業関連データセットである。 14,120個の高分解能スキャンを217個に分け、4つの産業用深度イメージングセンサーで撮影する。 12のカテゴリから27,346の注釈付き欠陥があり、工業用表面欠陥の幅をカバーしている。
論文参考訳（メタデータ） (2025-07-10T15:09:20Z)
Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文参考訳（メタデータ） (2025-04-19T08:05:47Z)
RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising [63.39134873744748]
既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。本稿では,CLIPの強力なマルチモーダル識別機能を利用する新しい耐雑音性M3DM-NRフレームワークを提案する。 M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。
論文参考訳（メタデータ） (2024-06-04T12:33:02Z)
IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文参考訳（メタデータ） (2024-04-23T13:38:01Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文参考訳（メタデータ） (2024-01-06T07:30:41Z)
Long-Tailed 3D Detection via Multi-Modal Fusion [47.03801888003686]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。提案するMMLFアプローチは,従来の作業よりもLT3Dの性能を著しく向上させる。
論文参考訳（メタデータ） (2023-12-18T07:14:25Z)
Dual-Branch Reconstruction Network for Industrial Anomaly Detection with RGB-D Data [1.861332908680942]
3次元点雲とRGB画像に基づくマルチモーダル産業異常検出が出現し始めている。上記の方法は、より長い推論時間と高いメモリ使用量を必要とするため、業界におけるリアルタイムな要求を満たすことはできない。本稿では、RGB-D入力に基づく軽量な二重分岐再構成ネットワークを提案し、通常例と異常例の判定境界を学習する。
論文参考訳（メタデータ） (2023-11-12T10:19:14Z)
ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。 KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文参考訳（メタデータ） (2023-10-28T07:12:09Z)
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T09:39:05Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)
Deep Industrial Image Anomaly Detection: A Survey [85.44223757234671]
近年の深層学習の急速な発展は,産業用画像異常検出(IAD)のマイルストーンとなった本稿では,ディープラーニングによる画像異常検出手法の総合的なレビューを行う。画像異常検出のオープニング課題をいくつか取り上げる。
論文参考訳（メタデータ） (2023-01-27T03:18:09Z)
Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。 MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文参考訳（メタデータ） (2022-09-27T04:49:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。