論文の概要: Visual Anomaly Detection under Complex View-Illumination Interplay: A Large-Scale Benchmark
- arxiv url: http://arxiv.org/abs/2505.10996v1
- Date: Fri, 16 May 2025 08:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.372046
- Title: Visual Anomaly Detection under Complex View-Illumination Interplay: A Large-Scale Benchmark
- Title(参考訳): 複雑なビューイルミネーション・インタープレイによる視覚異常検出:大規模ベンチマーク
- Authors: Yunkang Cao, Yuqi Cheng, Xiaohao Xu, Yiheng Zhang, Yihan Sun, Yuxiang Tan, Yuxin Zhang, Xiaonan Huang, Weiming Shen,
- Abstract要約: M2AD(Multi-View Multi-Illumination Anomaly Detection)を導入する。
M2ADは、119,880の高解像度画像からなる大規模なベンチマークであり、VADの堅牢性を明示的に調査するために設計された。
現状のVAD手法は,M2ADにおいて極めて困難であり,ビューイルミネーションの相互作用によってもたらされる大きな課題が示される。
- 参考スコア(独自算出の注目度): 7.627579683359674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practical deployment of Visual Anomaly Detection (VAD) systems is hindered by their sensitivity to real-world imaging variations, particularly the complex interplay between viewpoint and illumination which drastically alters defect visibility. Current benchmarks largely overlook this critical challenge. We introduce Multi-View Multi-Illumination Anomaly Detection (M2AD), a new large-scale benchmark comprising 119,880 high-resolution images designed explicitly to probe VAD robustness under such interacting conditions. By systematically capturing 999 specimens across 10 categories using 12 synchronized views and 10 illumination settings (120 configurations total), M2AD enables rigorous evaluation. We establish two evaluation protocols: M2AD-Synergy tests the ability to fuse information across diverse configurations, and M2AD-Invariant measures single-image robustness against realistic view-illumination effects. Our extensive benchmarking shows that state-of-the-art VAD methods struggle significantly on M2AD, demonstrating the profound challenge posed by view-illumination interplay. This benchmark serves as an essential tool for developing and validating VAD methods capable of overcoming real-world complexities. Our full dataset and test suite will be released at https://hustcyq.github.io/M2AD to facilitate the field.
- Abstract(参考訳): 視覚異常検出(VAD)システムの現実的な展開は、現実のイメージングのバリエーションに対する感度、特に視界と照明の間の複雑な相互作用によって著しく欠陥の可視性を変化させることによって妨げられている。
現在のベンチマークは、この重要な課題を概ね見落としている。
M2AD(Multi-View Multi-Illumination Anomaly Detection)は、119,880個の高解像度画像からなる新しい大規模ベンチマークである。
12の同期ビューと10の照明設定(120構成)を用いて10のカテゴリにわたる999の検体を体系的に捕捉することにより、M2ADは厳密な評価を可能にした。
M2AD-Synergyは、様々な構成にまたがって情報を融合する能力をテストし、M2AD-Invariantは、現実的なビューイルミネーション効果に対するシングルイメージロバスト性を測定する。
我々の大規模なベンチマークでは、最先端のVAD手法がM2ADでかなり苦労していることが示され、ビュー・イルミネーション・インタープレイによって引き起こされる大きな課題が示される。
このベンチマークは、現実世界の複雑さを克服できるVADメソッドの開発と検証に不可欠なツールとして機能する。
私たちの完全なデータセットとテストスイートは、フィールドを容易にするためにhttps://hustcyq.github.io/M2ADでリリースされます。
関連論文リスト
- YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-Branch Feature Interaction [45.79993863157494]
YOLO-LLTSは、低照度環境向けに設計されたエンドツーエンドのリアルタイム信号検出アルゴリズムである。
我々は、低照度シナリオにおける不特定小物体の特徴に対処するために、HRFM-TOD(High-Resolution Feature Map for Small Object Detection)モジュールを導入する。
次に,マルチブランチ・フィーチャーインタラクション・アテンション(MFIA)モジュールを開発した。
論文 参考訳(メタデータ) (2025-03-18T04:28:05Z) - CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning [32.65909515998849]
CL-MVSNetという2段階のコントラスト学習手法を提案する。
具体的には、2つの対照的な分岐を教師なしMVSフレームワークに統合し、追加の監視信号を構築する。
提案手法は,すべてのエンドツーエンドのMVSフレームワークの最先端性能を達成し,微調整を行なわずに教師付きフレームワークをかなりの差で上回っている。
論文 参考訳(メタデータ) (2025-03-11T09:39:06Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object
Tracking [38.36872739816151]
検出器内のOAA(Occlusion-Aware Attention)モジュールは、隠蔽された背景領域を抑えながらオブジェクトの特徴を強調する。
OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。
最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。
論文 参考訳(メタデータ) (2023-08-30T06:56:53Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文 参考訳(メタデータ) (2021-06-07T20:02:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。