論文の概要: Analyzing the Sensitivity of Vision Language Models in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2507.21335v1
- Date: Mon, 28 Jul 2025 21:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.347831
- Title: Analyzing the Sensitivity of Vision Language Models in Visual Question Answering
- Title(参考訳): 視覚質問応答における視覚言語モデルの感度分析
- Authors: Monika Shah, Sudarshan Balaji, Somdeb Sarkhel, Sanorita Dey, Deepak Venugopal,
- Abstract要約: 我々は、視覚言語モデル(VLM)が、Griceの最大値に対する違反を人間に類似した方法で処理できるかどうかを検討する。
我々は、GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flashの3つの最先端VLMを使用している。
- 参考スコア(独自算出の注目度): 3.2016458534910455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We can think of Visual Question Answering as a (multimodal) conversation between a human and an AI system. Here, we explore the sensitivity of Vision Language Models (VLMs) through the lens of cooperative principles of conversation proposed by Grice. Specifically, even when Grice's maxims of conversation are flouted, humans typically do not have much difficulty in understanding the conversation even though it requires more cognitive effort. Here, we study if VLMs are capable of handling violations to Grice's maxims in a manner that is similar to humans. Specifically, we add modifiers to human-crafted questions and analyze the response of VLMs to these modifiers. We use three state-of-the-art VLMs in our study, namely, GPT-4o, Claude-3.5-Sonnet and Gemini-1.5-Flash on questions from the VQA v2.0 dataset. Our initial results seem to indicate that the performance of VLMs consistently diminish with the addition of modifiers which indicates our approach as a promising direction to understand the limitations of VLMs.
- Abstract(参考訳): 視覚質問回答は、人間とAIシステムの間の(マルチモーダルな)会話だと考えることができる。
本稿では,Grice が提唱した会話の協調原理のレンズを通して,視覚言語モデル(VLM)の感度について検討する。
特に、グレースの会話の最大値が浮かび上がったとしても、人間は認知的な努力を必要とするにもかかわらず、会話を理解するのにあまり困難を持っていないのが普通である。
本稿では,VLMがGriceの最大値に対する違反を人間に類似した方法で処理できるかどうかを考察する。
具体的には、人造質問に修飾子を加え、これらの修飾子に対するVLMの応答を解析する。
我々は、VQA v2.0データセットからの質問に対して、GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flashの3つの最先端VLMを使用している。
最初の結果から,VLM の限界を理解するための有望な方向を示す修飾子の追加により,VLM の性能が一定に低下していることが示唆された。
関連論文リスト
- Can Vision Language Models Infer Human Gaze Direction? A Controlled Study [1.7047772174109688]
迷路参照推論は、自然とAIの相互作用を支える心の理論の重要な構成要素である。
111個の視覚言語モデル (VLM) を用いて, 難易度と変動度を操作した写真を用いて, このスキルを評価した。
その結果、111個のVLMのうち94個のVLMはランダムな推測よりもうまく機能せず、人間は近いシーリング精度を達成できた。
論文 参考訳(メタデータ) (2025-06-04T17:59:25Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。
本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:14:14Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。