論文の概要: SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection
- arxiv url: http://arxiv.org/abs/2510.18034v1
- Date: Mon, 20 Oct 2025 19:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.531134
- Title: SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection
- Title(参考訳): SAVANT:視力増強型異常検出による意味解析
- Authors: Roberto Brusnicki, David Pop, Yuan Gao, Mattia Piccinini, Johannes Betz,
- Abstract要約: SAVANTは、異常運転シナリオの検出において高精度なリコールを実現する構造化推論フレームワークである。
9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処する。
- 参考スコア(独自算出の注目度): 6.806105013817923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving systems remain critically vulnerable to the long-tail of rare, out-of-distribution scenarios with semantic anomalies. While Vision Language Models (VLMs) offer promising reasoning capabilities, naive prompting approaches yield unreliable performance and depend on expensive proprietary models, limiting practical deployment. We introduce SAVANT (Semantic Analysis with Vision-Augmented Anomaly deTection), a structured reasoning framework that achieves high accuracy and recall in detecting anomalous driving scenarios from input images through layered scene analysis and a two-phase pipeline: structured scene description extraction followed by multi-modal evaluation. Our approach transforms VLM reasoning from ad-hoc prompting to systematic analysis across four semantic layers: Street, Infrastructure, Movable Objects, and Environment. SAVANT achieves 89.6% recall and 88.0% accuracy on real-world driving scenarios, significantly outperforming unstructured baselines. More importantly, we demonstrate that our structured framework enables a fine-tuned 7B parameter open-source model (Qwen2.5VL) to achieve 90.8% recall and 93.8% accuracy - surpassing all models evaluated while enabling local deployment at near-zero cost. By automatically labeling over 9,640 real-world images with high accuracy, SAVANT addresses the critical data scarcity problem in anomaly detection and provides a practical path toward reliable, accessible semantic monitoring for autonomous systems.
- Abstract(参考訳): 自律運転システムは、セマンティックな異常を伴う稀な流通シナリオの長い尾に対して、致命的な脆弱さを保っている。
Vision Language Models (VLM) は有望な推論機能を提供するが、素早いプロンプトアプローチは信頼性の低いパフォーマンスをもたらし、高価なプロプライエタリなモデルに依存し、実際のデプロイメントを制限している。
SAVANT(Semantic Analysis with Vision-Augmented Anomaly deTection)は、階層化されたシーン解析と2相パイプラインによる入力画像からの異常運転シナリオの検出において、高精度かつリコールが可能な構造化推論フレームワークである。
我々のアプローチは,VLM推論をアドホックな推論から,ストリート,インフラストラクチャ,モブブルオブジェクト,環境という4つの意味層にまたがる体系的な分析へと変換する。
SAVANTは現実世界の運転シナリオで89.6%のリコールと88.0%の精度を達成した。
さらに重要なことは、我々の構造化されたフレームワークが、90.8%のリコールと93.8%の精度を達成するために、微調整された7Bパラメータのオープンソースモデル(Qwen2.5VL)を可能にすることを実証している。
9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処し、自律システムのための信頼性が高くアクセスしやすいセマンティックモニタリングへの実践的な道筋を提供する。
関連論文リスト
- NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving [10.340969230365138]
自律運転におけるリスクを理解するには、エージェントの振る舞いとコンテキストに関する高いレベルの推論が必要である。
現在の視覚言語モデル(Ms)に基づく手法は主に静的画像のグラウンドエージェントである。
自律運転における明示的時間的推論の促進のための重要なベンチマークとして,NuRiskを提案する。
論文 参考訳(メタデータ) (2025-09-30T08:37:31Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Advancing Autonomous Vehicle Intelligence: Deep Learning and Multimodal LLM for Traffic Sign Recognition and Robust Lane Detection [11.743721109110792]
本稿では,先進的な深層学習技術とマルチモーダル大規模言語モデル(MLLM)を組み合わせた総合的な道路認識手法を提案する。
交通信号認識では,ResNet-50,Yv8,RT-DETRを評価し,ResNet-50で99.8%,YOLOv8で98.0%,RT-DETRで96.6%の精度を達成した。
車線検出のために,曲線フィッティングにより強化されたCNNに基づくセグメンテーション手法を提案する。
論文 参考訳(メタデータ) (2025-03-08T19:12:36Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Scene-Graph Augmented Data-Driven Risk Assessment of Autonomous Vehicle
Decisions [1.4086978333609153]
本研究では,シーングラフを中間表現として利用する新しいデータ駆動手法を提案する。
我々のアプローチには、マルチリレーショングラフ畳み込みネットワーク、ロングショート長期記憶ネットワーク、そして運転操作の主観的リスクをモデル化するための注意層が含まれる。
提案手法は,大型(96.4%対91.2%)および小型(91.8%対71.2%)の最先端アプローチよりも高い分類精度が得られることを示す。
また、実世界のデータセットでテストすると、合成データセットでトレーニングされたモデルの平均精度が87.8%に達することを示す。
論文 参考訳(メタデータ) (2020-08-31T07:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。