論文の概要: Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving
- arxiv url: http://arxiv.org/abs/2603.06054v1
- Date: Fri, 06 Mar 2026 09:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.477251
- Title: Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving
- Title(参考訳): 自動車運転用軽量ビジョンランゲージモデルにおける視覚概念の提案
- Authors: Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy,
- Abstract要約: VLM(Vision-Language Models)は、自動走行アプリケーションに使用される。
これらのモデルは、自動運転に非常に関係のある単純な視覚的な問題で失敗することが多い。
シーンにおけるオブジェクトやエージェントの存在などの概念は、明示的にかつ線形に符号化されていることを示す。
物体やエージェントの向きなどの他の空間視覚概念は、視覚エンコーダが保持する空間構造によって暗黙的に符号化される。
最後に,対象物の距離を増大させると,対応する視覚概念の線形分離性が急速に低下することを示す。
- 参考スコア(独自算出の注目度): 3.333320380836246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Vision-Language Models (VLMs) in automated driving applications is becoming increasingly common, with the aim of leveraging their reasoning and generalisation capabilities to handle long tail scenarios. However, these models often fail on simple visual questions that are highly relevant to automated driving, and the reasons behind these failures remain poorly understood. In this work, we examine the intermediate activations of VLMs and assess the extent to which specific visual concepts are linearly encoded, with the goal of identifying bottlenecks in the flow of visual information. Specifically, we create counterfactual image sets that differ only in a targeted visual concept and then train linear probes to distinguish between them using the activations of four state-of-the-art (SOTA) VLMs. Our results show that concepts such as the presence of an object or agent in a scene are explicitly and linearly encoded, whereas other spatial visual concepts, such as the orientation of an object or agent, are only implicitly encoded by the spatial structure retained by the vision encoder. In parallel, we observe that in certain cases, even when a concept is linearly encoded in the model's activations, the model still fails to answer correctly. This leads us to identify two failure modes. The first is perceptual failure, where the visual information required to answer a question is not linearly encoded in the model's activations. The second is cognitive failure, where the visual information is present but the model fails to align it correctly with language semantics. Finally, we show that increasing the distance of the object in question quickly degrades the linear separability of the corresponding visual concept. Overall, our findings improve our understanding of failure cases in VLMs on simple visual tasks that are highly relevant to automated driving.
- Abstract(参考訳): 自動運転アプリケーションにおけるビジョンランゲージモデル(VLM)の利用は、長い尾のシナリオを扱うための推論と一般化機能を活用することを目的として、ますます一般的になりつつある。
しかしながら、これらのモデルは、自動運転に非常に関係のある単純な視覚的な問題で失敗することが多い。
本研究では,視覚情報の流れのボトルネックを特定することを目的として,VLMの中間的活性化を検証し,特定の視覚概念が線形に符号化される範囲を評価する。
具体的には,対象とする視覚的概念においてのみ異なる反実画像集合を作成し,次に4つの最先端(SOTA)VLMの活性化を用いて線形プローブを訓練する。
その結果,映像中の物体やエージェントの存在などの概念は明示的に線形に符号化されているのに対し,物体やエージェントの向きなどの空間的視覚概念は視覚エンコーダが保持する空間的構造によって暗黙的に符号化されていることがわかった。
平行して、ある場合において、ある概念がモデルのアクティベーションに線形に符号化されているとしても、モデルが正しく答えられないことが観察される。
これにより、2つの障害モードが特定できます。
1つ目は知覚的失敗(perceptual failure)で、質問に答えるために必要な視覚情報はモデルのアクティベーションに線形にエンコードされない。
2つ目は認知的失敗であり、視覚情報は存在するが、モデルは言語の意味論と正しく一致しない。
最後に,対象物の距離を増大させると,対応する視覚概念の線形分離性が急速に低下することを示す。
以上より,自動走行に極めて関係のある単純な視覚的タスクにおいて,VLMにおける障害事例の理解を深めることができた。
関連論文リスト
- Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - The Geometry of Representational Failures in Vision Language Models [5.7337123720860435]
VLM(Vision-Language Models)は、多目的視覚タスクにおけるファズリング障害を示す。
これらの誤りは「バインディング問題」のような人間の認知的制約を反映している
オープンウェイトVLMの表現幾何学を解析し,メカニスティックな知見を提案する。
論文 参考訳(メタデータ) (2026-02-02T12:20:04Z) - Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models [16.73630874846666]
視覚言語モデル(VLM)のある時点で空間構造の視覚的・幾何学的・テキスト的表現を組み合わせなければならない
本稿では,VLMがオブジェクト位置をテキストのアクティベーションに線形に結合し,言語トークンによる推論を行うことにより,オブジェクト位置を符号化することを示す。
解析をビデオVLMに拡張し、類似の線形時間ID機構を同定する。
論文 参考訳(メタデータ) (2026-01-18T23:48:38Z) - SAVE: Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination [48.601385640941935]
Sparse Autoencoderの潜在機能に沿ってモデルを操ることで幻覚を緩和するフレームワークであるSAVEを提案する。
バイナリオブジェクトプレゼンス質問回答プローブは、モデルの視覚情報処理を最も示唆するSAEの特徴を識別する。
SAVEはシンプルな設計で、標準的なベンチマークで最先端のトレーニングフリーメソッドより優れている。
論文 参考訳(メタデータ) (2025-12-08T17:20:07Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning [75.80110543049783]
我々は,自律運転のための再建型視覚トークンプルーニングフレームワークであるFastDriveVLAを提案する。
VLAモデルの視覚的エンコーダにReconPrunerを訓練するために, 新たなフォアグラウンド逆バックグラウンド再構築戦略を考案した。
提案手法は,異なるプルーニング比におけるnuScenesオープンループ計画ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-07-31T07:55:56Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。