論文の概要: Revealing Interpretable Failure Modes of VLMs
- arxiv url: http://arxiv.org/abs/2605.12674v1
- Date: Tue, 12 May 2026 19:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.640813
- Title: Revealing Interpretable Failure Modes of VLMs
- Title(参考訳): VLMの解釈可能な故障モードの解明
- Authors: Isha Chaudhary, Vedaant V Jain, Kavya Sachdeva, Sayan Ranu, Gagandeep Singh,
- Abstract要約: 本稿では,視覚言語モデル(VLM)における解釈可能な障害モードを体系的に発見するフレームワークREVELIOを紹介する。
我々は、自動運転車や屋内ロボティクスの分野にREVELIOを適用し、これまで報告されていなかった最先端のVLMの脆弱性を明らかにした。
- 参考スコア(独自算出の注目度): 18.921082542641525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly used in safety-critical applications because of their broad reasoning capabilities and ability to generalize with minimal task-specific engineering. Despite these advantages, they can exhibit catastrophic failures in specific real-world situations, constituting failure modes. We introduce REVELIO, a framework for systematically uncovering interpretable failure modes in VLMs. We define a failure mode as a composition of interpretable, domain-relevant concepts-such as pedestrian proximity or adverse weather conditions-under which a target VLM consistently behaves incorrectly. Identifying such failures requires searching over an exponentially large discrete combinatorial space. To address this challenge, REVELIO combines two search procedures: a diversity-aware beam search that efficiently maps the failure landscape, and a Gaussian-process Thompson Sampling strategy that enables broader exploration of complex failure modes. We apply REVELIO to autonomous driving and indoor robotics domains, uncovering previously unreported vulnerabilities in state-of-the-art VLMs. In driving environments, the models often demonstrate weak spatial grounding and fail to account for major obstructions, leading to recommendations that would result in simulated crashes. In indoor robotics tasks, VLMs either miss safety hazards or behave excessively conservatively, producing false alarms and reducing operational efficiency. By identifying structured and interpretable failure modes, REVELIO offers actionable insights that can support targeted VLM safety improvements.
- Abstract(参考訳): VLM(Vision-Language Models)は、タスク固有の最小限のエンジニアリングでその幅広い推論能力と一般化能力のために、安全クリティカルなアプリケーションでますます使われている。
これらの利点にもかかわらず、それらは特定の現実の状況において破滅的な失敗を示し、障害モードを構成する。
本稿では,VLMにおける解釈可能な障害モードを体系的に発見するためのフレームワークであるREVELIOを紹介する。
我々は、障害モードを、歩行者の接近や悪天候など、解釈可能なドメイン関連概念の合成として定義する。
このような失敗を特定するには、指数的に大きな離散組合せ空間を探索する必要がある。
この課題に対処するため、REVELIOは2つの探索手順を組み合わした: 多様性を意識したビームサーチで、障害の景観を効率的にマッピングする。
我々は、自動運転車や屋内ロボティクスの分野にREVELIOを適用し、これまで報告されていなかった最先端のVLMの脆弱性を明らかにした。
運転環境では、モデルはしばしば弱い空間的接地を示し、大きな障害物を考慮せず、シミュレートされたクラッシュをもたらすレコメンデーションに繋がる。
屋内ロボティクスのタスクでは、VLMは危険を見逃すか、過度に保守的に行動し、誤報を発生させ、運用効率を低下させる。
構造化および解釈可能な障害モードを特定することで、REVELIOは、ターゲットのVLM安全性の改善をサポートする実行可能な洞察を提供する。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making [12.400383981686801]
安全クリティカルな環境でのAIシステムによる1つの間違いは、命がかかる可能性がある。
大きな言語モデル(LLM)がロボットの意思決定に不可欠なものになると、リスクの物理的次元が大きくなる。
本稿では,軽微な誤りであっても破滅的なシナリオにおいて,LCMの性能を体系的に評価する緊急的必要性について論じる。
論文 参考訳(メタデータ) (2026-01-09T05:04:15Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning [18.28480383898768]
FORTRESSはロボットの安全性のための共同推論と計画のフレームワークである。
セマンティックに安全なフォールバック戦略を生成し、安全クリティカルなOOD障害を防ぐ。
論文 参考訳(メタデータ) (2025-05-15T17:55:28Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Adaptive Failure Search Using Critical States from Domain Experts [9.93890332477992]
フェールサーチは、シミュレーションまたは実世界のテストにおいて、かなりの走行距離をロギングすることで行うことができる。
ASTはマルコフ決定プロセスとして失敗探索の問題を提起する手法である。
ASTフレームワークにクリティカルステートを組み込むことで,安全性違反の増大を伴う障害シナリオが生成されることを示す。
論文 参考訳(メタデータ) (2023-04-01T18:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。