論文の概要: Questioning the Stability of Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.11206v1
- Date: Fri, 14 Nov 2025 12:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.569847
- Title: Questioning the Stability of Visual Question Answering
- Title(参考訳): 視力検査の安定性を問う
- Authors: Amir Rosenfeld, Neta Glazer, Ethan Fetaya,
- Abstract要約: ビジュアル言語モデル(VLM)は目覚ましい進歩を遂げているが、その信頼性は小さく、意味を保った入力変更ではよく理解されていない。
視覚的・テキスト的摂動に配慮したVLMロバスト性の最初の大規模・系統的研究について述べる。
最新のシステム(例えば、GPT-4o、Gemini 2.0 Flash)は、少数のピクセルや無害なリフレージングでしばしば失敗することを示す。
- 参考スコア(独自算出の注目度): 11.848401203578456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Language Models (VLMs) have achieved remarkable progress, yet their reliability under small, meaning-preserving input changes remains poorly understood. We present the first large-scale, systematic study of VLM robustness to benign visual and textual perturbations: pixel-level shifts, light geometric transformations, padded rescaling, paraphrasing, and multilingual rewrites that do not alter the underlying semantics of an image-question pair. Across a broad set of models and datasets, we find that modern VLMs are highly sensitive to such minor perturbations: a substantial fraction of samples change their predicted answer under at least one visual or textual modification. We characterize how this instability varies across perturbation types, question categories, and models, revealing that even state-of-the-art systems (e.g., GPT-4o, Gemini 2.0 Flash) frequently fail under shifts as small as a few pixels or harmless rephrasings. We further show that sample-level stability serves as a strong indicator of correctness: stable samples are consistently far more likely to be answered correctly. Leveraging this, we demonstrate that the stability patterns of small, accessible open-source models can be used to predict the correctness of much larger closed-source models with high precision. Our findings expose a fundamental fragility in current VLMs and highlight the need for robustness evaluations that go beyond adversarial perturbations, focusing instead on invariances that models should reliably uphold.
- Abstract(参考訳): ビジュアル言語モデル(VLM)は目覚ましい進歩を遂げているが、その信頼性は小さく、意味を保った入力変更ではよく理解されていない。
本稿では,視覚的・テキスト的摂動を無視するVLMの頑健性について,画素レベルのシフト,光幾何学的変換,パッドド・リスケーリング,パラフレージング,多言語的書き換えなど,視覚的・テキスト的摂動を考慮に入れた最初の大規模かつ体系的な研究について述べる。
モデルとデータセットの広い範囲で、現代のVLMはこのような小さな摂動に非常に敏感であることがわかった。
我々は、この不安定性が摂動タイプ、質問カテゴリ、モデルによってどのように異なるかを特徴付け、最新のシステム(例えば、GPT-4o、Gemini 2.0 Flash)でさえ、数ピクセルや無害なリフレクションの小さなシフトの下で頻繁に失敗することを明らかにする。
さらに、サンプルレベルの安定性が正しさの強い指標であることを示す。
これを利用して、小型でアクセス可能なオープンソースモデルの安定性パターンを用いて、より大規模なクローズドソースモデルの精度を高い精度で予測できることを実証する。
我々の研究は、現在のVLMの根本的な脆弱さを明らかにし、モデルが確実に維持すべき不変性に焦点をあてて、敵の摂動を超えた堅牢性評価の必要性を強調した。
関連論文リスト
- Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Are vision language models robust to uncertain inputs? [5.249651874118556]
より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-17T03:16:49Z) - FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [24.39952838336609]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのフレームワークである。
FLUKEの実用性は、6つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大規模言語モデル(LLMs)と視覚言語モデル(VLMs)は、幅広いタスクで素晴らしいパフォーマンスを実現しています。
本研究では,このような摂動の影響を受けやすいパラメータや入力次元を同定することにより,この脆弱性の原因を特定することを目的とする。
我々は、情報幾何学に根ざし、個々のパラメータと入力次元の感度を定量化する、textbfFI, textbf First order local textbfInfluence という安定性尺度を提案する。
論文 参考訳(メタデータ) (2025-03-28T16:23:59Z) - RoAST: Robustifying Language Models via Adversarial Perturbation with
Selective Training [105.02614392553198]
選択的トレーニング(RoAST)を用いた逆方向摂動を用いたロバスト化法を提案する。
RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な情報源を組み込んでいる。
6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-07T04:23:36Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Understanding the Downstream Instability of Word Embeddings [14.373952177486558]
多くの産業機械学習(ML)システムは、常に変化するデータに対して最新の状態を維持するために、頻繁なリトレーニングを必要としている。
トレーニングデータの小さな変更は、モデルの予測に大きな変更を引き起こす可能性がある。
本稿では,現代自然言語処理パイプラインのコアビルディングブロック – 事前訓練された単語埋め込み – が,下流NLPモデルの不安定性にどのように影響するかを示す。
論文 参考訳(メタデータ) (2020-02-29T00:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。