論文の概要: SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment
- arxiv url: http://arxiv.org/abs/2507.07939v1
- Date: Thu, 10 Jul 2025 17:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.510626
- Title: SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment
- Title(参考訳): SAGE: ファクトエンハンスメントとエントロピー認識アライメントによる異常検出のためのビジュアル言語モデル
- Authors: Guoxin Zang, Xue Li, Donglin Di, Lanshun Nie, Dechen Zhan, Yang Song, Lei Fan,
- Abstract要約: VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。
SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 12.388954043805235
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Vision-Language Models (VLMs) have shown promising progress in general multimodal tasks, they often struggle in industrial anomaly detection and reasoning, particularly in delivering interpretable explanations and generalizing to unseen categories. This limitation stems from the inherently domain-specific nature of anomaly detection, which hinders the applicability of existing VLMs in industrial scenarios that require precise, structured, and context-aware analysis. To address these challenges, we propose SAGE, a VLM-based framework that enhances anomaly reasoning through Self-Guided Fact Enhancement (SFE) and Entropy-aware Direct Preference Optimization (E-DPO). SFE integrates domain-specific knowledge into visual reasoning via fact extraction and fusion, while E-DPO aligns model outputs with expert preferences using entropy-aware optimization. Additionally, we introduce AD-PL, a preference-optimized dataset tailored for industrial anomaly reasoning, consisting of 28,415 question-answering instances with expert-ranked responses. To evaluate anomaly reasoning models, we develop Multiscale Logical Evaluation (MLE), a quantitative framework analyzing model logic and consistency. SAGE demonstrates superior performance on industrial anomaly datasets under zero-shot and one-shot settings. The code, model and dataset are available at https://github.com/amoreZgx1n/SAGE.
- Abstract(参考訳): VLM(Vision-Language Models)は、一般的なマルチモーダルタスクにおいて有望な進歩を示す一方で、産業上の異常検出と推論、特に解釈可能な説明の提供と、目に見えないカテゴリへの一般化に苦慮することが多い。
この制限は、本質的にドメイン固有の異常検出の性質に起因しており、正確で構造化され、コンテキスト対応の分析を必要とする産業シナリオにおける既存のVLMの適用性を妨げている。
これらの課題に対処するために,自己ガイド型Fact Enhancement (SFE) と Entropy-aware Direct Preference Optimization (E-DPO) を用いて,異常推論を強化する VLM ベースのフレームワーク SAGE を提案する。
SFEはドメイン固有の知識を事実抽出と融合を通じて視覚的推論に統合し、E-DPOはエントロピー認識最適化を用いてモデルの出力を専門家の好みと整合させる。
さらに,産業的異常推論に適した嗜好最適化データセットであるAD-PLを紹介した。
異常推論モデルを評価するために,モデル論理と一貫性を定量的に分析するMLE(Multiscale Logical Evaluation)を開発した。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
コード、モデル、データセットはhttps://github.com/amoreZgx1n/SAGEで入手できる。
関連論文リスト
- Temporal-Spectral-Spatial Unified Remote Sensing Dense Prediction [62.376936772702905]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
トレーニング可能なタスクの埋め込みにモデルを条件付けすることで、単一のアーキテクチャ内で異なる密集した予測タスクを統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文 参考訳(メタデータ) (2025-04-16T09:48:41Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.879328762187361]
本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文 参考訳(メタデータ) (2025-03-04T17:20:43Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。