論文の概要: CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments
- arxiv url: http://arxiv.org/abs/2510.26006v1
- Date: Wed, 29 Oct 2025 22:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.594344
- Title: CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments
- Title(参考訳): CAVE:視覚環境におけるコモンセンス異常の検出と説明
- Authors: Rishika Bhagwatkar, Syrielle Montariol, Angelika Romanou, Beatriz Borges, Irina Rish, Antoine Bosselut,
- Abstract要約: 実世界の視覚異常の最初のベンチマークであるCAVEを紹介する。
CAVEは、異常説明、説明、正当化の3つのオープンエンドタスクをサポートしている。
これらのアノテーションは、人間が異常を識別し解決する方法に関する認知科学の研究からインスピレーションを得ている。
- 参考スコア(独自算出の注目度): 34.26006736991816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can naturally identify, reason about, and explain anomalies in their environment. In computer vision, this long-standing challenge remains limited to industrial defects or unrealistic, synthetically generated anomalies, failing to capture the richness and unpredictability of real-world anomalies. In this work, we introduce CAVE, the first benchmark of real-world visual anomalies. CAVE supports three open-ended tasks: anomaly description, explanation, and justification; with fine-grained annotations for visual grounding and categorizing anomalies based on their visual manifestations, their complexity, severity, and commonness. These annotations draw inspiration from cognitive science research on how humans identify and resolve anomalies, providing a comprehensive framework for evaluating Vision-Language Models (VLMs) in detecting and understanding anomalies. We show that state-of-the-art VLMs struggle with visual anomaly perception and commonsense reasoning, even with advanced prompting strategies. By offering a realistic and cognitively grounded benchmark, CAVE serves as a valuable resource for advancing research in anomaly detection and commonsense reasoning in VLMs.
- Abstract(参考訳): 人間は自然に環境中の異常を特定し、推論し、説明することができる。
コンピュータビジョンでは、この長年にわたる課題は、産業上の欠陥や、非現実的に合成された異常に限られており、現実の異常の豊かさと予測不可能さを捉えていない。
本研究では,実世界の視覚異常の最初のベンチマークであるCAVEを紹介する。
CAVEは3つのオープンエンドタスクをサポートする: 異常記述、説明、正当化; 視覚的根拠付けと分類のための微粒なアノテーション、その複雑さ、重大さ、および共通性。
これらのアノテーションは、人間が異常を識別し、解決する方法に関する認知科学の研究からインスピレーションを得ており、異常を検出し、理解するためのビジョン・ランゲージ・モデル(VLM)を評価する包括的な枠組みを提供する。
現状のVLMは,高度なプロンプト戦略であっても,視覚異常知覚や常識推論に苦しむことを示す。
現実的で認知的なベンチマークを提供することにより、CAVEはVLMにおける異常検出と常識推論の研究を進めるための貴重なリソースとなる。
関連論文リスト
- Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - Two Is Better Than One: Aligned Representation Pairs for Anomaly Detection [56.57122939745213]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型手法は, 異常に関する事前知識を用いて, トレーニング中に合成外れ値を生成することによって, それらの表現をうまく学習している。
この制限は、通常のサンプルにおける対称性に関する事前の知識を活用して、異なるコンテキストでデータを観測する、新しいアプローチであるCon$で対処する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly [29.822544507594056]
ビデオ異常の因果理解のためのベンチマーク(CUVA)を提案する。
提案されたベンチマークの各インスタンスは、異常の"何"、"なぜ"、"どのように"を示す3つの人間のアノテーションを含んでいる。
MMEvalはCUVAの人間の嗜好に合うように設計された新しい評価基準である。
論文 参考訳(メタデータ) (2024-04-30T20:11:49Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos [49.07140708026425]
画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。
本稿では,説明可能な2次元視覚異常検出(X-VAD)に焦点を当てた初の包括的調査を行う。
本稿では,その基礎技術によって分類された説明可能な手法の文献レビューを行う。
我々は、将来的な方向性と、説明品質の定量化を含むオープンな問題について議論する。
論文 参考訳(メタデータ) (2023-02-13T20:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。