論文の概要: VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction
- arxiv url: http://arxiv.org/abs/2603.13964v1
- Date: Sat, 14 Mar 2026 14:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.513834
- Title: VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction
- Title(参考訳): VID-AD:視覚誘発抽出による画像レベル論理異常検出用データセット
- Authors: Hiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang,
- Abstract要約: VID-ADは、視覚誘発障害下での論理的異常検出のためのデータセットである。
10の製造シナリオと5つの捕獲条件で構成され、合計50の1級タスクと10,395のイメージで構成されている。
正規画像から生成されたテキスト記述のみに依存する言語ベースの異常検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.968670701930714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.
- Abstract(参考訳): 産業検査における論理的異常検出は、視覚的外観の変化(背景のぼやけ、照明のシフト、ぼやけなど)により、しばしば視覚中心の検出器が規則レベルの違反を特定するのを妨げているため、依然として困難である。
しかし、既存のベンチマークでは、そのようなニュアンス要因が異なる間に論理状態が固定されるような制御された設定はめったに提供されない。
このギャップに対処するために,視覚誘発障害下での論理的異常検出のためのデータセットであるVID-ADを導入する。
10の製造シナリオと5つの捕獲条件で構成され、合計50の1級タスクと10,395のイメージで構成されている。
各シナリオは、量、長さ、型、配置、関係から選択された2つの論理的制約によって定義される。
さらに,正規画像から生成されたテキスト記述のみに依存する言語ベースの異常検出フレームワークを提案する。
これらの記述から合成された正のテキストと矛盾に基づく負のテキストによる対照的な学習を用いて、本手法は低レベルの特徴ではなく論理的属性をキャプチャする埋め込みを学習する。
大規模な実験では、評価された設定のベースラインよりも一貫した改善が示されている。
データセットは、https://github.com/nkthiroto/VID-ADで利用可能だ。
関連論文リスト
- DevPrompt: Deviation-Based Prompt Learning for One-Normal ShotImage Anomaly Detection [0.0]
FNSAD (Few-normal shot anomaly detection) は、画像内の異常領域を検出することを目的としている。
最近のアプローチでは、CLIPのような視覚言語モデルとプロンプトベースの学習を利用して、画像とテキストの特徴を整合させる。
本稿では,視覚言語モデルのセマンティックパワーと,偏差に基づくスコアリングの統計的信頼性を統合した偏差誘導型即時学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T20:35:51Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - AFR-CLIP: Enhancing Zero-Shot Industrial Anomaly Detection with Stateless-to-Stateful Anomaly Feature Rectification [11.844008592270555]
本稿では,CLIPに基づく異常特徴修正フレームワークであるAFR-CLIPを提案する。
視覚的特徴とテキスト的特徴のコサイン類似度を測定して異常マップを生成する。
産業と医療の領域にわたる11の異常検出ベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2025-03-17T08:18:55Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [109.72772150095646]
FAPromptは、精密なZSADのためのきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
産業的欠陥と医療的異常の両方をカバーする19の実世界のデータセットの実験は、FAPromptが画像レベルのZSADタスクとピクセルレベルのZSADタスクの両方で最先端の手法を大幅に上回っていることを実証している。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。