論文の概要: BetterCheck: Towards Safeguarding VLMs for Automotive Perception Systems
- arxiv url: http://arxiv.org/abs/2507.17722v1
- Date: Wed, 23 Jul 2025 17:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.109743
- Title: BetterCheck: Towards Safeguarding VLMs for Automotive Perception Systems
- Title(参考訳): BetterCheck: 自動車知覚システムのためのVLMの保護を目指して
- Authors: Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger,
- Abstract要約: 大規模言語モデル(LLM)は、テキストやビデオなどのマルチモーダルデータを同時に処理するように拡張されている。
制限されていない場合、LLMとビジョン言語モデル(VLM)は複雑な交通状況を記述するのに優れた性能を示す。
VLMは幻覚を起こす傾向があり、これは、ある状況にある交通エージェントを見ていない可能性や、実際には存在しない交通エージェントを見ることを意味する。
- 参考スコア(独自算出の注目度): 1.701722696403793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are growingly extended to process multimodal data such as text and video simultaneously. Their remarkable performance in understanding what is shown in images is surpassing specialized neural networks (NNs) such as Yolo that is supporting only a well-formed but very limited vocabulary, ie., objects that they are able to detect. When being non-restricted, LLMs and in particular state-of-the-art vision language models (VLMs) show impressive performance to describe even complex traffic situations. This is making them potentially suitable components for automotive perception systems to support the understanding of complex traffic situations or edge case situation. However, LLMs and VLMs are prone to hallucination, which mean to either potentially not seeing traffic agents such as vulnerable road users who are present in a situation, or to seeing traffic agents who are not there in reality. While the latter is unwanted making an ADAS or autonomous driving systems (ADS) to unnecessarily slow down, the former could lead to disastrous decisions from an ADS. In our work, we are systematically assessing the performance of 3 state-of-the-art VLMs on a diverse subset of traffic situations sampled from the Waymo Open Dataset to support safety guardrails for capturing such hallucinations in VLM-supported perception systems. We observe that both, proprietary and open VLMs exhibit remarkable image understanding capabilities even paying thorough attention to fine details sometimes difficult to spot for us humans. However, they are also still prone to making up elements in their descriptions to date requiring hallucination detection strategies such as BetterCheck that we propose in our work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストやビデオなどのマルチモーダルデータを同時に処理するように拡張されている。
画像に表示されているものを理解する上での顕著なパフォーマンスは、十分に形成されているが非常に限定された語彙のみをサポートするYoloのような、特殊なニューラルネットワーク(NN)を超越している。
検出可能なオブジェクト。
制限されない場合、LLMと特に最先端のビジョン言語モデル(VLM)は、複雑な交通状況を記述するのに優れた性能を示す。
これにより、複雑な交通状況やエッジケース状況の理解を支援するために、自動車認識システムに適したコンポーネントになる可能性がある。
しかし, LLM や VLM は幻覚に陥りやすいため, 脆弱な道路利用者などの交通エージェントを視認できない場合や, 現実に存在しない交通エージェントを視認できない場合が多い。
後者はADASまたは自律運転システム(ADS)を不必要に減速させることを望んでいないが、前者はADSから悲惨な決定を下す可能性がある。
本研究は、Waymo Open Datasetから採取した交通状況の多様なサブセットに基づいて、3つの最先端VLMの性能を体系的に評価し、これらの幻覚をVLM支援型知覚システムで捉えるための安全ガードレールをサポートする。
プロプライエタリなVLMとオープンなVLMの両方が、優れた画像理解能力を示しています。
しかし、我々の研究で提案しているBetterCheckのような幻覚検出戦略を、現在まで記述の要素を作成する傾向にある。
関連論文リスト
- Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation [17.864481047606677]
視覚言語モデル(LVLM)は視覚質問応答(VQA)や画像キャプションといったマルチモーダルタスクにおいて顕著な性能を発揮している。
彼らはまだ幻覚に悩まされており、視覚的な入力と矛盾するテキストを生成し、現実世界のアプリケーションに重大なリスクを及ぼしている。
LVLMの幻覚を緩和するために,SAE遅延方向(SSL)によるステアリングLVLMを提案する。
論文 参考訳(メタデータ) (2025-05-22T02:45:45Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks [1.701722696403793]
マルチモーダル大言語モデル(LLM)は、テキスト、画像、オーディオ、その他のデータ型を処理できる。
本稿では,LLMの幻覚検出戦略を体系的に評価した。
歩行者検出の例において,これらのLCMをビデオシーケンスに適用する際の幻覚検出手法の評価と拡張を行った。
論文 参考訳(メタデータ) (2024-07-18T20:58:03Z) - Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models [16.452638202694246]
本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。
設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。
NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
論文 参考訳(メタデータ) (2024-05-31T16:35:41Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。