論文の概要: CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving
- arxiv url: http://arxiv.org/abs/2602.15645v1
- Date: Tue, 17 Feb 2026 15:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.103339
- Title: CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving
- Title(参考訳): CAREドライブは自動運転における視覚言語モデルの推論応答性を評価するためのフレームワーク
- Authors: Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren, Pepijn Kooij, Elsefien Tulleners, Federico Scari, Simeon Calvert, Bart van Arem, Arkady Zgonnikov,
- Abstract要約: CARE Driveは、自動運転に適用された視覚言語モデルにおける理由応答性を評価するためのフレームワークである。
それは、制御された文脈変動の下でのベースラインと理由強化モデル決定を比較し、人間の理由が決定行動に因果的に影響を及ぼすかどうかを評価する。
結果は、人間の明確な理由がモデル決定に大きな影響を与え、専門家の推奨行動との整合性が向上することを示している。
- 参考スコア(独自算出の注目度): 3.5279672254773353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, including vision language models, are increasingly used in automated driving to interpret scenes, recommend actions, and generate natural language explanations. However, existing evaluation methods primarily assess outcome based performance, such as safety and trajectory accuracy, without determining whether model decisions reflect human relevant considerations. As a result, it remains unclear whether explanations produced by such models correspond to genuine reason responsive decision making or merely post hoc rationalizations. This limitation is especially significant in safety critical domains because it can create false confidence. To address this gap, we propose CARE Drive, Context Aware Reasons Evaluation for Driving, a model agnostic framework for evaluating reason responsiveness in vision language models applied to automated driving. CARE Drive compares baseline and reason augmented model decisions under controlled contextual variation to assess whether human reasons causally influence decision behavior. The framework employs a two stage evaluation process. Prompt calibration ensures stable outputs. Systematic contextual perturbation then measures decision sensitivity to human reasons such as safety margins, social pressure, and efficiency constraints. We demonstrate CARE Drive in a cyclist overtaking scenario involving competing normative considerations. Results show that explicit human reasons significantly influence model decisions, improving alignment with expert recommended behavior. However, responsiveness varies across contextual factors, indicating uneven sensitivity to different types of reasons. These findings provide empirical evidence that reason responsiveness in foundation models can be systematically evaluated without modifying model parameters.
- Abstract(参考訳): 視覚言語モデルを含むファンデーションモデルは、シーンを解釈し、アクションを推奨し、自然言語の説明を生成するために、自動化運転にますます使われている。
しかし、既存の評価手法では、モデル決定が人間に関連する考慮を反映するかどうかを判断することなく、安全性や軌道精度などの結果に基づく性能を評価する。
その結果、そのようなモデルが生み出す説明が真の理由対応意思決定と一致するのか、それとも単にホックな合理化後のものであるのかは明らかでない。
この制限は、安全クリティカルドメインにおいて特に重要である。
このギャップに対処するために、自動運転に適用された視覚言語モデルにおける理応答性を評価するためのモデル非依存フレームワークであるCARE Drive, Context Aware Reasons Evaluation for Drivingを提案する。
CARE Driveは、制御された文脈変動の下でのベースラインと理由強化モデル決定を比較し、人間の理由が決定行動に因果的影響を与えるかどうかを評価する。
このフレームワークは2段階の評価プロセスを採用している。
プロンプトキャリブレーションは安定した出力を保証する。
システム的文脈摂動は、安全マージン、社会的圧力、効率の制約といった人間の理由に対する決定の感度を測定する。
競合する規範的考察を含むシナリオを乗り越えて,CAREドライブを実演する。
結果は、人間の明確な理由がモデル決定に大きな影響を与え、専門家の推奨行動との整合性が向上することを示している。
しかし、応答性は文脈的要因によって異なり、異なるタイプの理由に対する不均一な感受性を示す。
これらの結果は, モデルパラメータを変更することなく, 基礎モデルの応答性を体系的に評価できることを示す実証的証拠となる。
関連論文リスト
- On the Assessment of Sensitivity of Autonomous Vehicle Perception [0.13858851827255522]
自動走行の実現性は知覚システムの性能に大きく依存する。
モデルアンサンブルに基づく予測感度定量化を用いて知覚性能を評価する。
異なる路面上の停止標識におけるAVの停止距離に基づいて知覚評価基準を開発する。
論文 参考訳(メタデータ) (2026-01-30T21:06:05Z) - AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving [26.866150191410032]
AutoDriDMは,3次元にわたる6,650の質問 – Object, Scene, Decision – を備えた,意思決定中心の,プログレッシブなベンチマークです。
我々は、自律運転における知覚と判断能力の境界を明確化するために、主流の視覚言語モデルを評価する。
モデル推論プロセスの説明可能性分析を行い、論理的推論エラーなどの重要な障害モードを特定する。
論文 参考訳(メタデータ) (2026-01-21T06:29:09Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models [9.316712964093506]
視覚言語モデル(VLM)は自律運転の約束を示すが、安全にとって重要な透明な推論能力は欠如していることが多い。
微調整中の推論を明示的にモデル化することで、運転決定タスクにおけるVLM性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2025-04-14T23:16:07Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Reason induced visual attention for explainable autonomous driving [2.090380922731455]
ディープラーニング (DL) ベースのコンピュータビジョン (CV) モデルは一般的に、解釈性が悪いため、ブラックボックスと見なされる。
本研究の目的は,自律運転におけるDLモデルの解釈可能性を高めることにある。
提案手法は,視覚入力(画像)と自然言語を協調的にモデル化することにより,人間の運転者の学習過程を模倣する。
論文 参考訳(メタデータ) (2021-10-11T18:50:41Z) - Modeling Perception Errors towards Robust Decision Making in Autonomous
Vehicles [11.503090828741191]
意思決定サブシステムが堅牢で安全な判断を下すのに十分な認識サブシステムは十分か?
自律システムの挙動に異なる種類の知覚・知覚誤差が与える影響を解析する方法を示す。
論文 参考訳(メタデータ) (2020-01-31T08:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。