論文の概要: What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs
- arxiv url: http://arxiv.org/abs/2606.01624v2
- Date: Tue, 02 Jun 2026 05:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.466628
- Title: What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs
- Title(参考訳): 次に試すもの:VLM運転時のカバーギャップ発見の解釈
- Authors: Abhishek Aich, Sparsh Garg, Vijay Kumar BG, Turgun Yusuf Kashgari, Manmohan Chandraker,
- Abstract要約: 視覚言語モデル(VLM)を駆動するには,操作設計領域(ODD)が定義する様々な条件のシーンを正確に理解する必要がある
SliceScorerは、欠落したスライス推薦のための決定論的スコアリングルールである。
SliceNavは, 従来のスライス発見法よりも, 高リスクカバレッジギャップを効果的に表面化することを示す。
- 参考スコア(独自算出の注目度): 52.50210189669399
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Driving vision-language models (VLMs) must accurately understand scenes across diverse conditions defined by Operational Design Domains (ODDs), yet verification remains sparse: many slices are missing, making empirical failure rates unreliable. We propose SliceScorer, a deterministic scoring rule for missing-slice recommendation that combines (i) an exposure-based coverage prior to prioritize rare, under-tested regions, and (ii) a neighbor-failure prior that propagates risk from similar tested conditions. SliceScorer is deliberately simple - interpretable, auditable, and conservative - properties essential for safety-critical validation. For stress testing beyond the declared ODD, we embed SliceScorer within SliceNav, an LLM-orchestrated verification pipeline where the model interprets developer queries to select relevant operators (triage, scoring, acquisition, evaluation) and vocabulary extensions, composing verification workflows while keeping all scoring deterministic and auditable. Experiments on three driving VLMs (WiseAD, DriveMM, Cosmos-Reason2-2B) show that SliceNav surfaces high-risk coverage gaps more effectively than prior slice-discovery methods while maintaining diverse recommendations across the condition space. Ablations confirm both scoring components contribute, and qualitative analysis demonstrates end-to-end workflows from developer query to targeted evaluation.
- Abstract(参考訳): 視覚言語モデル(VLM)を駆動するには、オペレーショナルデザインドメイン(ODD)によって定義されたさまざまな条件のシーンを正確に理解する必要があります。
我々はSliceScorerを提案する。SliceScorerは、欠落したスライス推薦のための決定論的スコアリングルールである。
一 希少で未試験の地域を優先する前の被曝率
二 類似の試験条件からリスクを伝播する隣人の障害
SliceScorerは、安全クリティカルなバリデーションに不可欠な、故意にシンプルで、解釈可能、監査可能、保守的です。
宣言されたODD以外のストレステストのために、私たちはSliceNavにSliceScorerを組み込む。SliceNavはLLM準拠の検証パイプラインで、モデルが開発者クエリを解釈して、関連するオペレータ(トリアージ、スコアリング、取得、評価)と語彙拡張を選択します。
3つの駆動VLM(WiseAD、DriveMM、Cosmos-Reason2-2B)の実験では、SliceNavは従来のスライス発見法よりもリスクの高いカバレッジギャップを効果的に表面化し、条件空間全体にわたって多様なレコメンデーションを維持している。
アブレーションによってスコアリングコンポーネントの両方が寄与し、質的な分析は、開発者クエリからターゲット評価までのエンドツーエンドのワークフローを実証する。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - An Agentic Workflow for Detecting Personally Identifiable Information in Crash Narratives [25.2699036413582]
PIIは軽々しく、矛盾なくクラッシュの物語に現れる。
既存のルールベースのアプローチでは、コンテキスト依存のPIIをキャプチャできないことが多い。
本研究は,事故物語におけるPII検出のための局所展開可能なエージェントワークフローを開発し,評価する。
論文 参考訳(メタデータ) (2026-04-15T05:03:20Z) - Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文 参考訳(メタデータ) (2025-10-26T23:19:28Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines? [0.0]
ファクトチェックを必要とするテキストセグメントを識別するために、ゼロショットと少数ショットのLCMプロンプトを使用する。
各種領域の5つのCD/CWデータセットに対して,LLMの予測精度と校正精度を評価した。
提案手法により, 最適急進的冗長性はドメイン依存であり, 文脈の追加は性能を向上しないことがわかった。
論文 参考訳(メタデータ) (2024-04-18T13:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。