論文の概要: Same Answer, Different Representations: Hidden instability in VLMs
- arxiv url: http://arxiv.org/abs/2602.06652v1
- Date: Fri, 06 Feb 2026 12:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.392361
- Title: Same Answer, Different Representations: Hidden instability in VLMs
- Title(参考訳): 異なる表現の同じ答え:VLMの隠れた不安定性
- Authors: Farooq Ahmad Wani, Alessandro Suglia, Rohit Saxena, Aryo Pradipta Gema, Wai-Chung Kwan, Fazl Barez, Maria Sofia Bucarelli, Fabrizio Silvestri, Pasquale Minervini,
- Abstract要約: 本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
- 参考スコア(独自算出の注目度): 65.36933543377346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The robustness of Vision Language Models (VLMs) is commonly assessed through output-level invariance, implicitly assuming that stable predictions reflect stable multimodal processing. In this work, we argue that this assumption is insufficient. We introduce a representation-aware and frequency-aware evaluation framework that measures internal embedding drift, spectral sensitivity, and structural smoothness (spatial consistency of vision tokens), alongside standard label-based metrics. Applying this framework to modern VLMs across the SEEDBench, MMMU, and POPE datasets reveals three distinct failure modes. First, models frequently preserve predicted answers while undergoing substantial internal representation drift; for perturbations such as text overlays, this drift approaches the magnitude of inter-image variability, indicating that representations move to regions typically occupied by unrelated inputs despite unchanged outputs. Second, robustness does not improve with scale; larger models achieve higher accuracy but exhibit equal or greater sensitivity, consistent with sharper yet more fragile decision boundaries. Third, we find that perturbations affect tasks differently: they harm reasoning when they disrupt how models combine coarse and fine visual cues, but on the hallucination benchmarks, they can reduce false positives by making models generate more conservative answers.
- Abstract(参考訳): 視覚言語モデル(VLM)の堅牢性は、安定な予測が安定なマルチモーダル処理を反映していると暗黙的に仮定して、出力レベルの不変性を通じて一般に評価される。
この研究では、この仮定は不十分であると主張する。
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさ(視覚トークンの空間的整合性)を測定する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークをSEEDBench、MMMU、POPEデータセットにわたる最新のVLMに適用すると、3つの異なる障害モードが明らかになる。
テキストオーバーレイのような摂動に対して、このドリフトは画像間変動の大きさに近づき、出力が変化しないにもかかわらず、表現が通常無関係な入力によって占有される領域に移動することを示す。
より大きなモデルは高い精度を達成するが、より鋭く、より脆弱な決定境界と一致して、同等またはより高い感度を示す。
第3に、摂動はタスクに異なる影響があることがわかりました。モデルが粗いものと細かな視覚的手がかりを結合する方法を乱す場合、推論に支障をきたすが、幻覚のベンチマークでは、モデルにより保守的な回答をもたらすことによって偽陽性を減らすことができるのです。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Questioning the Stability of Visual Question Answering [11.848401203578456]
ビジュアル言語モデル(VLM)は目覚ましい進歩を遂げているが、その信頼性は小さく、意味を保った入力変更ではよく理解されていない。
視覚的・テキスト的摂動に配慮したVLMロバスト性の最初の大規模・系統的研究について述べる。
最新のシステム(例えば、GPT-4o、Gemini 2.0 Flash)は、少数のピクセルや無害なリフレージングでしばしば失敗することを示す。
論文 参考訳(メタデータ) (2025-11-14T12:05:05Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts [78.79936076607373]
我々は,連続ニュアンスシフトベンチマークであるCNS-Benchを導入し,連続かつ現実的なニュアンスシフトのための画像分類器の堅牢性を定量化する。
本稿では,従来の手法よりも優れたフィルタリング機構を提案し,生成モデルによる信頼性の高いベンチマークを可能にする。
論文 参考訳(メタデータ) (2025-07-23T16:15:48Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。
中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。
SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:44:28Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Are vision language models robust to uncertain inputs? [5.249651874118556]
より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-17T03:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。