論文の概要: Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety
- arxiv url: http://arxiv.org/abs/2504.13399v1
- Date: Fri, 18 Apr 2025 01:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:46:13.089012
- Title: Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety
- Title(参考訳): 自律運転安全のためのゼロショット新規危険物検出のためのマルチエージェントビジョンランゲージシステム
- Authors: Shashank Shriram, Srinivasa Perisetla, Aryan Keskar, Harsha Krishnaswamy, Tonko Emil Westerhof Bossen, Andreas Møgelmose, Ross Greer,
- Abstract要約: 視覚言語推論とゼロショットオブジェクト検出を統合したマルチモーダル手法を提案する。
予測ハザードとバウンディングボックスアノテーションを一致させるために,OpenAIのCLIPモデルを取り入れたオブジェクト検出を改良する。
その結果,現在の視覚言語に基づくアプローチの長所と短所が明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting anomalous hazards in visual data, particularly in video streams, is a critical challenge in autonomous driving. Existing models often struggle with unpredictable, out-of-label hazards due to their reliance on predefined object categories. In this paper, we propose a multimodal approach that integrates vision-language reasoning with zero-shot object detection to improve hazard identification and explanation. Our pipeline consists of a Vision-Language Model (VLM), a Large Language Model (LLM), in order to detect hazardous objects within a traffic scene. We refine object detection by incorporating OpenAI's CLIP model to match predicted hazards with bounding box annotations, improving localization accuracy. To assess model performance, we create a ground truth dataset by denoising and extending the foundational COOOL (Challenge-of-Out-of-Label) anomaly detection benchmark dataset with complete natural language descriptions for hazard annotations. We define a means of hazard detection and labeling evaluation on the extended dataset using cosine similarity. This evaluation considers the semantic similarity between the predicted hazard description and the annotated ground truth for each video. Additionally, we release a set of tools for structuring and managing large-scale hazard detection datasets. Our findings highlight the strengths and limitations of current vision-language-based approaches, offering insights into future improvements in autonomous hazard detection systems. Our models, scripts, and data can be found at https://github.com/mi3labucm/COOOLER.git
- Abstract(参考訳): 視覚データ、特にビデオストリームにおける異常な危険を検出することは、自動運転において重要な課題である。
既存のモデルは、事前に定義されたオブジェクトカテゴリに依存しているため、予測できない、ラベル外ハザードに悩まされることが多い。
本稿では,視覚言語推論とゼロショット物体検出を統合したマルチモーダル手法を提案する。
我々のパイプラインは、交通シーン内の危険物を検出するために、Large Language Model (LLM) であるVision-Language Model (VLM) で構成されている。
オブジェクト検出にはOpenAIのCLIPモデルを取り入れて,予測されるハザードとバウンディングボックスアノテーションをマッチングし,ローカライゼーションの精度を向上する。
モデル性能を評価するために,ハザードアノテーションのための完全な自然言語記述を備えた基礎的COOOL(Challenge-of-Out-Label)異常検出ベンチマークデータセットをデノベートし,拡張することにより,基礎的真理データセットを作成する。
我々は,コサイン類似度を用いて,拡張データセット上でのハザード検出とラベル付け評価の手段を定義する。
この評価は、予測されたハザード記述とビデオ毎の注釈付き接地真実とのセマンティックな類似性について考察する。
さらに,大規模ハザード検出データセットの構造化と管理のためのツールセットもリリースしている。
我々の研究は、現在の視覚言語に基づくアプローチの強みと限界を強調し、自律的危険検知システムにおける将来の改善に関する洞察を提供する。
私たちのモデル、スクリプト、データはhttps://github.com/mi3labucm/COOOLER.gitにある。
関連論文リスト
- Addressing Out-of-Label Hazard Detection in Dashcam Videos: Insights from the COOOL Challenge [0.0]
本稿では,ダッシュカム映像におけるハザード解析の新しい手法を提案する。
危険物に対する運転者反応の検出、危険物の検出、説明的なキャプションの生成に対処する。
本手法は,自動運転におけるアウト・オブ・ラベルの課題において,最も高いスコアを得た。
論文 参考訳(メタデータ) (2025-01-27T13:32:01Z) - FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference [6.856508678236828]
このフレームワークは異なるアルゴリズムから2組の予測を受け取り、不整合とファジィ推論による衝突リスクを関連付ける。
IoU(Intersection-over-Union)と深度差測定(deep discrepancy measure)に基づいて,2組の予測の不一致が3次元物体検出器の誤差と強く相関していることを実験的に検証した。
AV衝突率によく一致する既存のオフラインメトリックに対してファジィ推論システムを最適化する。
論文 参考訳(メタデータ) (2024-11-09T20:20:36Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。