論文の概要: A Structured Benchmark for Text-Guided Anomaly Detection: When Language Stops Conditioning the Decision
- arxiv url: http://arxiv.org/abs/2606.01992v1
- Date: Mon, 01 Jun 2026 09:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.705441
- Title: A Structured Benchmark for Text-Guided Anomaly Detection: When Language Stops Conditioning the Decision
- Title(参考訳): テキストガイドによる異常検出のための構造化ベンチマーク:言語が決定を条件付けるのをやめたとき
- Authors: Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci,
- Abstract要約: テキストガイド型異常検出(TGAD)は,3つのシナリオにまたがる言語機能の役割を段階的に向上させる構造化ベンチマークである。
提案手法は, 大規模視覚言語, 学習自由識別, 組込み適応識別の1つの代表的なモデルである。
- 参考スコア(独自算出の注目度): 8.253092044813593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial anomaly detection has historically been a unimodal task. Recent multimodal vision-language models have produced systems that admit textual input alongside the image and are presented as enabling text-guided zero- and few-shot inspection. Yet these methods are evaluated with protocols inherited from unimodal benchmarks that hold the textual condition constant and therefore cannot measure whether language conditions the decision; whether reported gains reflect text guidance or strong pretrained visual features remains open. We introduce Text-Guided Anomaly Detection (TGAD), a structured benchmark that progressively increases the functional role of language across three scenarios: a controlled prompt-sensitivity setting on MVTec AD; a component-tagged extension of MVTec AD that requires the model to restrict its assessment to an instructed part; and the new Assembled Panel Dataset (APD), a realistic industrial setting that requires both defect-type and component-location knowledge. We evaluate one representative model per paradigm: generative large vision-language, training-free discriminative, and embedding-adaptive discriminative. In all three, the textual interface conditions the decision only superficially: prompt content is absorbed unless the object noun is removed (the generative model's I-AUROC drops from 97.4 to 82.6); component-level instructions do not constrain the decision once defects outside the instructed part are admitted as normal (from 90.3 to 66.3); and when both combine on APD, image-level discrimination collapses below the MVTec level, in one case below chance (71.2, 50.5, 31.5). These results suggest that standard benchmarks overstate the text-guided capabilities of current multimodal anomaly detection systems, and that a protocol of this kind is a prerequisite for models that can be reliably controlled through language for industrial deployment.
- Abstract(参考訳): 産業異常検出は歴史的に一過性の課題であった。
近年のマルチモーダル視覚言語モデルでは、画像と並行してテキスト入力を受け付け、テキスト誘導によるゼロ・ショット検査を可能にするシステムが開発されている。
しかし、これらの手法は、テキスト条件を一定に保ち、したがって言語条件が決定するかどうかを測定することができない一元的ベンチマークから継承したプロトコルを用いて評価される。
テキストガイド型異常検出(TGAD)は,MVTec ADの制御的アクセシビリティ設定,MVTec ADのコンポーネントタグ拡張による評価を指示部分に限定するモデル,および欠陥タイプとコンポーネント位置の両方の知識を必要とする現実的な産業環境である。
提案手法は, 大規模視覚言語, 学習自由識別, 組込み適応識別の1つの代表的なモデルである。
生成モデルのI-AUROCは97.4から82.6に低下する)、部品レベルの命令は、指示された部分の外側の欠陥が正常(90.3から66.3まで)であると認識されたときに決定を制約しない、そして両者がAPDに結合すると、画像レベルの分解はMVTecレベル以下に低下する(71.2, 50.5, 31.5)。
これらの結果から,従来のマルチモーダル異常検出システムのテキスト誘導能力は標準ベンチマークで誇張されていることが示唆された。
関連論文リスト
- The Attribution Blind Spot: Detecting When Language Models Rely on Memory Rather Than Retrieved Context [22.202409807556517]
帰属盲点に対処するために,計算現実モニタリングを導入する。
CRMは、認知科学の現実監視フレームワークから適応した原則を運用する。
プレトレーニングされた露光が測定可能な内部軌道シグネチャを残すかどうかを検出する。
論文 参考訳(メタデータ) (2026-05-26T09:48:51Z) - Base Models Look Human To AI Detectors [68.7723287560362]
ベースモデルから生成されたテキストは圧倒的に人間的であると判断されることが多いが、命令で調整されたテキストはそうではない。
提案するHumanization by Iterative Paraphrasing (HIP)は,ベースモデルをパラフラザーに最小限微調整し,反復的に適用する検出器非依存パイプラインである。
以上の結果から,現在の検出器は,機械生成テキストの概念よりも,命令チューニングやローカルコンテキストのアーティファクトを追跡していることが示唆された。
論文 参考訳(メタデータ) (2026-05-19T08:13:12Z) - Text-Guided Multimodal Unified Industrial Anomaly Detection [71.95719669933312]
そこで本研究では,テキストセマンティクスによって導かれる多モーダル産業異常検出フレームワークを提案する。
フレームワークは、Geometry-Aware Cross-Modal MapperとObject-Conditioned Textual Feature Adaptorの2つのコアモジュールで構成されている。
本手法は,教師なし環境下での分類とローカライゼーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-24T13:21:22Z) - When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection [15.88746061477275]
異常検出はしばしば、異常が観測の本質的な性質であり、文脈に依存しないという仮定の下で定式化される。
この仮定は、同じオブジェクトやアクションが正常である場合や、遅延したコンテキスト要因によって異常な場合など、現実世界の多くの設定で分解される。
従来,文脈に依存した異常として定義され,視覚領域で機能的に機能するアンフコンテクスチュアルな異常検出法について検討した。
論文 参考訳(メタデータ) (2026-01-30T11:48:20Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models [43.76961935990733]
欠陥のあるシステムに基づいて、言語モデルが回答を拒否する能力は、依然として重大な障害点である。
RefusalBenchは、制御された言語コンテキストを通して診断テストケースを作成するジェネレーティブな方法論である。
選択的な拒絶は、改善への明確な道筋を提供する列車で、アライメントに敏感な能力であることがわかった。
論文 参考訳(メタデータ) (2025-10-12T00:53:42Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文 参考訳(メタデータ) (2025-08-11T03:55:47Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。