論文の概要: SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment
- arxiv url: http://arxiv.org/abs/2507.07939v2
- Date: Tue, 22 Jul 2025 03:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 17:22:28.574328
- Title: SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment
- Title(参考訳): SAGE: ファクトエンハンスメントとエントロピー認識アライメントによる異常検出のためのビジュアル言語モデル
- Authors: Guoxin Zang, Xue Li, Donglin Di, Lanshun Nie, Dechen Zhan, Yang Song, Lei Fan,
- Abstract要約: VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。
SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 12.388954043805235
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Vision-Language Models (VLMs) have shown promising progress in general multimodal tasks, they often struggle in industrial anomaly detection and reasoning, particularly in delivering interpretable explanations and generalizing to unseen categories. This limitation stems from the inherently domain-specific nature of anomaly detection, which hinders the applicability of existing VLMs in industrial scenarios that require precise, structured, and context-aware analysis. To address these challenges, we propose SAGE, a VLM-based framework that enhances anomaly reasoning through Self-Guided Fact Enhancement (SFE) and Entropy-aware Direct Preference Optimization (E-DPO). SFE integrates domain-specific knowledge into visual reasoning via fact extraction and fusion, while E-DPO aligns model outputs with expert preferences using entropy-aware optimization. Additionally, we introduce AD-PL, a preference-optimized dataset tailored for industrial anomaly reasoning, consisting of 28,415 question-answering instances with expert-ranked responses. To evaluate anomaly reasoning models, we develop Multiscale Logical Evaluation (MLE), a quantitative framework analyzing model logic and consistency. SAGE demonstrates superior performance on industrial anomaly datasets under zero-shot and one-shot settings. The code, model and dataset are available at https://github.com/amoreZgx1n/SAGE.
- Abstract(参考訳): VLM(Vision-Language Models)は、一般的なマルチモーダルタスクにおいて有望な進歩を示す一方で、産業上の異常検出と推論、特に解釈可能な説明の提供と、目に見えないカテゴリへの一般化に苦慮することが多い。
この制限は、本質的にドメイン固有の異常検出の性質に起因しており、正確で構造化され、コンテキスト対応の分析を必要とする産業シナリオにおける既存のVLMの適用性を妨げている。
これらの課題に対処するために,自己ガイド型Fact Enhancement (SFE) と Entropy-aware Direct Preference Optimization (E-DPO) を用いて,異常推論を強化する VLM ベースのフレームワーク SAGE を提案する。
SFEはドメイン固有の知識を事実抽出と融合を通じて視覚的推論に統合し、E-DPOはエントロピー認識最適化を用いてモデルの出力を専門家の好みと整合させる。
さらに,産業的異常推論に適した嗜好最適化データセットであるAD-PLを紹介した。
異常推論モデルを評価するために,モデル論理と一貫性を定量的に分析するMLE(Multiscale Logical Evaluation)を開発した。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
コード、モデル、データセットはhttps://github.com/amoreZgx1n/SAGEで入手できる。
関連論文リスト
- AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization [43.86757207244911]
2つのシナジスティックな革新を通して制限に対処する包括的フレームワークを提案する。
まず、地域識別から集中検査までモデルをガイドする多段階議論的推論プロセスを導入する。
第2に、分類精度と局所化監督を組み込んだ微粒化報酬機構を開発する。
論文 参考訳(メタデータ) (2025-08-06T08:00:27Z) - Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。
本研究では,時間領域毎に最適な因果予測値が得られることを示す。
合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文 参考訳(メタデータ) (2025-06-21T14:05:37Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Temporal-Spectral-Spatial Unified Remote Sensing Dense Prediction [62.376936772702905]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
トレーニング可能なタスクの埋め込みにモデルを条件付けすることで、単一のアーキテクチャ内で異なる密集した予測タスクを統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文 参考訳(メタデータ) (2025-04-16T09:48:41Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.879328762187361]
本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文 参考訳(メタデータ) (2025-03-04T17:20:43Z) - AAD-LLM: Adaptive Anomaly Detection Using Large Language Models [35.286105732902065]
本研究は,Large Language Models (LLMs) を利用した異常検出モデルの伝達性の向上を目的とする。
この研究はまた、モデルとプラントオペレーターの間でより協調的な意思決定を可能にすることを目指している。
論文 参考訳(メタデータ) (2024-11-01T13:43:28Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。