論文の概要: LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.12749v1
- Date: Thu, 17 Apr 2025 08:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:53.365423
- Title: LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection
- Title(参考訳): LAD-Reasoner:Tiny Multimodal Modelsは論理異常検出に適したReasonerである
- Authors: Weijia Li, Guanglei Chu, Jiong Chen, Guo-Sen Xie, Caifeng Shan, Fang Zhao,
- Abstract要約: 本稿では,論理的推論を組み込んで従来の異常検出を拡張したReasoning Logical Anomaly Detection (RLAD)を提案する。
本稿では,Qwen2.5-VL 3B上に構築された小型マルチモーダル言語モデルであるLAD-Reasonerを提案する。
MVTec LOCO ADデータセットの実験では、LAD-Reasonerははるかに小さく、精度はQwen2.5-VL-72BとF1のスコアと一致している。
- 参考スコア(独自算出の注目度): 27.45348890285863
- License:
- Abstract: Recent advances in industrial anomaly detection have highlighted the need for deeper logical anomaly analysis, where unexpected relationships among objects, counts, and spatial configurations must be identified and explained. Existing approaches often rely on large-scale external reasoning modules or elaborate pipeline designs, hindering practical deployment and interpretability. To address these limitations, we introduce a new task, Reasoning Logical Anomaly Detection (RLAD), which extends traditional anomaly detection by incorporating logical reasoning. We propose a new framework, LAD-Reasoner, a customized tiny multimodal language model built on Qwen2.5-VL 3B. Our approach leverages a two-stage training paradigm that first employs Supervised Fine-Tuning (SFT) for fine-grained visual understanding, followed by Group Relative Policy Optimization (GRPO) to refine logical anomaly detection and enforce coherent, human-readable reasoning. Crucially, reward signals are derived from both the detection accuracy and the structural quality of the outputs, obviating the need for building chain of thought (CoT) reasoning data. Experiments on the MVTec LOCO AD dataset show that LAD-Reasoner, though significantly smaller, matches the performance of Qwen2.5-VL-72B in accuracy and F1 score, and further excels in producing concise and interpretable rationales. This unified design reduces reliance on large models and complex pipelines, while offering transparent and interpretable insights into logical anomaly detection. Code and data will be released.
- Abstract(参考訳): 産業的異常検出の最近の進歩は、オブジェクト、カウント、空間構成間の予期せぬ関係を識別し、説明する必要がある、より深い論理的異常解析の必要性を強調している。
既存のアプローチは、しばしば大規模な外部推論モジュールや精巧なパイプライン設計に依存しており、実践的なデプロイメントと解釈可能性を妨げる。
これらの制約に対処するために、論理的推論を取り入れた従来の異常検出を拡張したReasoning Logical Anomaly Detection (RLAD)という新しいタスクを導入する。
本稿では,Qwen2.5-VL 3B上に構築された小型マルチモーダル言語モデルであるLAD-Reasonerを提案する。
提案手法では,まず細かな視覚的理解のためにスーパーバイザード・ファインタニング(SFT)を用い,次にグループ相対政策最適化(GRPO)を用いて論理的異常検出を洗練し,一貫性のある人間可読推論を強制する。
重要なことは、報酬信号は、検出精度と出力の構造的品質の両方から導かれ、思考の連鎖(CoT)推論データの構築の必要性を回避している。
MVTec LOCO ADデータセットの実験では、LAD-Reasonerは精度とF1スコアにおいてQwen2.5-VL-72Bの性能に匹敵し、簡潔で解釈可能な有理性を生み出すのに優れていた。
この統一された設計は、大きなモデルや複雑なパイプラインへの依存を減らすと同時に、論理的異常検出に対する透明で解釈可能な洞察を提供する。
コードとデータはリリースされます。
関連論文リスト
- From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
オープンボキャブラリ検出器を用いたプラグアンドプレイフレームワークインタフェースの提案。
提案手法は, 検出された実体間の関係パターンを探索する記号的回帰機構を組み合わせたものである。
トレーニング不要のフレームワークを、さまざまなアプリケーションドメインにまたがる特別なイベント認識システムと比較した。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction [4.959108380494595]
自動回帰マルチモーダル視覚言語モデル(AVLM)は、視覚的推論における異常なパフォーマンスのために、将来的な代替手段を提供する。
本研究では,AVLMを用いて論理的異常検出を行い,その課題に適していることを示す。
我々は、AUROCが86.4%、F1-maxが83.7%の公開ベンチマークであるMVTec LOCO ADにおいて、異常の説明とともにSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-01-03T11:40:41Z) - Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection [2.3020018305241337]
産業異常検出は品質管理と予測維持に不可欠である。
既存の手法では、深層学習ネットワークから抽出された画像パッチから複数スケールの特徴を活用することで、デントやスクラッチなどの構造異常を一般的に検出する。
構造異常を検出するためのメモリと計算効率のよいアプローチであるDeep Feature Restruction (DFR) に注目し,これらの制約に対処する。
我々はさらに、DFRをUDSADと呼ばれる統一されたフレームワークに拡張し、構造的および論理的異常の両方を検出する。
論文 参考訳(メタデータ) (2024-10-21T17:56:47Z) - LogiCode: an LLM-Driven Framework for Logical Anomaly Detection [5.989778187635765]
LogiCodeは、大規模言語モデル(LLM)を利用して、産業環境における論理的異常を識別する新しいフレームワークである。
論理的推論にLLMを利用することで、LogiCodeはPythonコードを自動生成し、不正な量や欠落要素などの異常を特定できる。
論文 参考訳(メタデータ) (2024-06-07T07:01:06Z) - MLAD: A Unified Model for Multi-system Log Anomaly Detection [35.68387377240593]
複数のシステムにまたがる意味的関係推論を組み込んだ新しい異常検出モデルMLADを提案する。
具体的には、Sentence-bertを用いてログシーケンス間の類似性を捉え、それらを高次元の学習可能な意味ベクトルに変換する。
我々は,各キーワードのシーケンスにおける意義を識別し,マルチシステムデータセットの全体分布をモデル化するために,アテンション層の公式を改訂する。
論文 参考訳(メタデータ) (2024-01-15T12:51:13Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - ESAD: End-to-end Deep Semi-supervised Anomaly Detection [85.81138474858197]
正規データと異常データの間のKL偏差を計測する新たな目的関数を提案する。
提案手法は,複数のベンチマークデータセットの最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-09T08:16:35Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。