論文の概要: Semantic Misalignment in Vision-Language Models under Perceptual Degradation
- arxiv url: http://arxiv.org/abs/2601.08355v1
- Date: Tue, 13 Jan 2026 09:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.130186
- Title: Semantic Misalignment in Vision-Language Models under Perceptual Degradation
- Title(参考訳): 知覚的劣化下における視覚・言語モデルにおける意味的相違
- Authors: Guo Cheng,
- Abstract要約: 視覚知覚の制御下において視覚言語モデル(VLM)における意味的ミスアライメントについて検討する。
ダウンストリームVLMの動作に深刻な障害がみられ, 幻覚的対象の言及, 安全クリティカルな実体の欠落, 不整合性判定などが観察された。
以上の結果から,画素レベルのロバスト性とマルチモーダルなセマンティックな信頼性との明確な不一致が明らかとなり,現在のVLMシステムにとって重要な限界が浮き彫りになった。
- 参考スコア(独自算出の注目度): 2.9140696506330723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in autonomous driving and embodied AI systems, where reliable perception is critical for safe semantic reasoning and decision-making. While recent VLMs demonstrate strong performance on multimodal benchmarks, their robustness to realistic perception degradation remains poorly understood. In this work, we systematically study semantic misalignment in VLMs under controlled degradation of upstream visual perception, using semantic segmentation on the Cityscapes dataset as a representative perception module. We introduce perception-realistic corruptions that induce only moderate drops in conventional segmentation metrics, yet observe severe failures in downstream VLM behavior, including hallucinated object mentions, omission of safety-critical entities, and inconsistent safety judgments. To quantify these effects, we propose a set of language-level misalignment metrics that capture hallucination, critical omission, and safety misinterpretation, and analyze their relationship with segmentation quality across multiple contrastive and generative VLMs. Our results reveal a clear disconnect between pixel-level robustness and multimodal semantic reliability, highlighting a critical limitation of current VLM-based systems and motivating the need for evaluation frameworks that explicitly account for perception uncertainty in safety-critical applications.
- Abstract(参考訳): VLM(Vision-Language Models)は、安全セマンティック推論と意思決定のために信頼性の高い認識が不可欠である、自律運転および具体化されたAIシステムにますます導入されている。
近年のVLMはマルチモーダルベンチマークで高い性能を示したが、現実的な知覚劣化に対する頑健さはいまだによく理解されていない。
本研究では,都市景観データセットのセマンティックセグメンテーション(セマンティックセグメンテーション)を代表知覚モジュールとして用いて,上流の視覚知覚を制御したVLMにおける意味的不一致を系統的に研究する。
従来のセグメンテーション指標では中程度の低下しか生じない知覚現実的な汚職を導入したが、幻覚的対象の言及、安全クリティカルな実体の欠落、一貫性のない安全判断など、下流のVLM行動の深刻な失敗を観察した。
これらの効果を定量化するために, 幻覚, 臨界欠落, 安全性の誤解釈を捉える言語レベルの誤認識尺度のセットを提案し, 複数の対照的かつ生成的なVLM間のセグメンテーション品質との関係を解析する。
その結果,画素レベルのロバスト性とマルチモーダルなセマンティック信頼性の明確な相違が明らかとなり,現在のVLMベースのシステムの限界が強調され,安全クリティカルなアプリケーションにおける認識の不確かさを明示的に考慮する評価フレームワークの必要性が示唆された。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - VLMs Guided Interpretable Decision Making for Autonomous Driving [39.29020915361483]
我々は、高度な意思決定タスクにおいて、最先端のオープンソースビジョン言語モデル(VLM)を評価する。
本稿では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせるアプローチを提案する。
提案手法は,VLMを信頼性・解釈可能なADシステムに統合する上で有望な方向を提供することにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T19:57:51Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - CF-VLM:CounterFactual Vision-Language Fine-tuning [10.299136720220416]
CounterFactual Vision-Language Fine-tuning (CF-VLM)は、視覚言語モデルの因果推論能力を高める新しいフレームワークである。
CF-VLMは3つの補完的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、実写シーン表現のユニークさと安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。
論文 参考訳(メタデータ) (2025-06-10T20:20:05Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。