論文の概要: Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2603.09512v1
- Date: Tue, 10 Mar 2026 11:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.248253
- Title: Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning
- Title(参考訳): 運転用VLMの信頼性:不整合応答から接地時間共振まで
- Authors: Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani,
- Abstract要約: 運転支援システムとして応用されたビジョン・ランゲージ・モデル(VLM)は,現状の観測結果が今後の成果をどう形作るのかを概説し,理解することができるかを検討する。
強い視覚的理解を持つモデルは、時間的推論を必要とするタスクにおいて必ずしも最善を尽くさない。
本稿では、時間ラベルを必要とせず、一貫性と時間的推論の両方を改善するチェーン・オブ・ソート推論を用いた、シンプルで効果的な自己教師付きチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 17.08518699175473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reliable driving assistant should provide consistent responses based on temporally grounded reasoning derived from observed information. In this work, we investigate whether Vision-Language Models (VLMs), when applied as driving assistants, can response consistantly and understand how present observations shape future outcomes, or whether their outputs merely reflect patterns memorized during training without temporally grounded reasoning. While recent efforts have integrated VLMs into autonomous driving, prior studies typically emphasize scene understanding and instruction generation, implicitly assuming that strong visual interpretation naturally enables consistant future reasoning and thus ensures reliable decision-making, a claim we critically examine. We focus on two major challenges limiting VLM reliability in this setting: response inconsistency, where minor input perturbations yield different answers or, in some cases, responses degenerate toward near-random guessing, and limited temporal reasoning, in which models fail to reason and align sequential events from current observations, often resulting in incorrect or even contradictory responses. Moreover, we find that models with strong visual understanding do not necessarily perform best on tasks requiring temporal reasoning, indicating a tendency to over-rely on pretrained patterns rather than modeling temporal dynamics. To address these issues, we adopt existing evaluation methods and introduce FutureVQA, a human-annotated benchmark dataset specifically designed to assess future scene reasoning. In addition, we propose a simple yet effective self-supervised tuning approach with chain-of-thought reasoning that improves both consistency and temporal reasoning without requiring temporal labels.
- Abstract(参考訳): 信頼性の高い運転支援者は、観測情報から得られた時間的根拠に基づく推論に基づいて一貫した応答を提供するべきである。
本研究では、運転支援システムとして応用された視覚言語モデル(VLM)が、現在の観察結果がどのように将来の成果を形作っているか、あるいは、その出力が時間的根拠のない学習中に記憶されたパターンを単に反映しているだけなのかを考察する。
近年の取り組みはVLMを自律運転に統合しているが、先行研究はシーン理解と命令生成を重視しており、強い視覚的解釈が自然に将来の推論を可能とし、信頼性の高い意思決定を保証することを暗黙的に仮定している。
この設定では、VLMの信頼性を制限する2つの大きな課題に焦点をあてる:応答の不整合、小さな入力摂動が異なる回答を得る場合、場合によっては、ほぼランダムな推測に対する応答が縮退し、時間的推論が制限される場合、モデルが現在の観測から逐次的なイベントを推論および整列に失敗し、しばしば誤った、あるいは矛盾する応答をもたらす場合である。
さらに、時間的推論を必要とするタスクにおいて、強い視覚的理解を持つモデルは、時間的ダイナミクスをモデル化するよりも、事前学習されたパターンを過度に重視する傾向があることを示唆する。
これらの問題に対処するために、我々は既存の評価手法を採用し、将来のシーン推論を評価するために特別に設計された人手によるベンチマークデータセットであるFutureVQAを導入する。
さらに、時間ラベルを必要とせず、一貫性と時間的推論の両方を改善するチェーン・オブ・ソート推論を用いた簡易かつ効果的な自己教師付きチューニング手法を提案する。
関連論文リスト
- Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning [50.62037276161025]
視覚言語モデル(VLM)は、視覚とテキストのモダリティを共同で活用することを目的としている。
主な障害は、視覚的な入力は通常、生成開始時に1回だけ提供されることである。
EmphSaliency-Aware Principle (SAP) の選択を提案する。
論文 参考訳(メタデータ) (2026-02-18T18:49:56Z) - TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement [7.122068644799895]
テストタイムトレーニングは、テスト質問のみを使用してモデル適応を可能にする。
自己回帰テスト時自己進化学習フレームワークである textbfTTSR を提案する。
論文 参考訳(メタデータ) (2026-02-06T18:55:40Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Improving Temporal Understanding Logic Consistency in Video-Language Models via Attention Enhancement [44.654178762186824]
大規模言語モデル(LLM)は、しばしば自己矛盾的な出力を生成する。
ビデオ言語モデル (Video-LLMs) は論理的に言い換えられた質問に対して一貫した応答を提供しない。
本稿では,テンポラリコンディショニング(Temporally Conditioned Attention Sharpening)と呼ばれるアテンション強化手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T12:22:06Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - Back to the Future: Towards Explainable Temporal Reasoning with Large
Language Models [33.8108950744839]
そこで本稿では,コンテキストに基づいたイベント発生の予測を行うために,時間的推論を記述可能な最初のタスクを紹介する。
本研究では,時間的予測と説明の最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-10-02T10:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。