論文の概要: Can Vision-Language Models Count? A Synthetic Benchmark and Analysis of Attention-Based Interventions
- arxiv url: http://arxiv.org/abs/2511.17722v1
- Date: Fri, 21 Nov 2025 19:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.378508
- Title: Can Vision-Language Models Count? A Synthetic Benchmark and Analysis of Attention-Based Interventions
- Title(参考訳): 視覚言語モデルは数えられるか? -意識に基づく介入の総合ベンチマークと分析-
- Authors: Saurav Sengupta, Nazanin Moradinasab, Jiebei Liu, Donald E. Brown,
- Abstract要約: 視覚言語モデル(VLM)は、画像の視覚特性に関するクエリに応答する際に、トレーニング中に学んだ固有のバイアスに依存することが多い。
本研究は,画像としての性能がどう変化するかを判断し,特性変化を促すための,総合的なベンチマークデータセットと評価フレームワークを構築した。
我々は,異なるレイヤにおける視覚的トークンに注目する,注意に基づく介入を実施し,その効果を視覚的条件によって評価する。
- 参考スコア(独自算出の注目度): 0.4934817254755008
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent research suggests that Vision Language Models (VLMs) often rely on inherent biases learned during training when responding to queries about visual properties of images. These biases are exacerbated when VLMs are asked highly specific questions that require them to focus on particular areas of the image in tasks such as counting. We build upon this research by developing a synthetic benchmark dataset and evaluation framework to systematically determine how counting performance varies as image and prompt properties change. Using open-source VLMs, we then analyze how attention allocation fluctuates with varying input parameters (e.g. number of objects in the image, objects color, background color, objects texture, background texture, and prompt specificity). We further implement attention-based interventions to modulate focus on visual tokens at different layers and evaluate their impact on counting performance across a range of visual conditions. Our experiments reveal that while VLM counting performance remains challenging, especially under high visual or linguistic complexity, certain attention interventions can lead to modest gains in counting performance.
- Abstract(参考訳): 近年の研究では、視覚言語モデル(VLM)は、画像の視覚特性に関するクエリに応答する際に、トレーニング中に学習した固有バイアスに依存することが多いことが示唆されている。
これらのバイアスは、VLMが計測などのタスクにおいて画像の特定の領域にフォーカスするように要求する、非常に具体的な質問を受けると、さらに悪化する。
本研究は,画像としての性能がどう変化するかを系統的に決定し,特性変化を促すための,総合的なベンチマークデータセットと評価フレームワークを構築した。
オープンソースVLMを用いて、アテンションアロケーションが様々な入力パラメータ(例えば、画像、オブジェクトの色、背景色、オブジェクトテクスチャ、背景テクスチャ、および迅速な特異性)でどのように変動するかを分析する。
さらに、異なるレイヤにおける視覚トークンの焦点を調節し、様々な視覚的条件におけるパフォーマンスのカウントに与える影響を評価するために、注意に基づく介入を実施する。
実験の結果,特に高い視覚的・言語的複雑性の下では,VLMの計測性能は依然として困難であるが,特定の注意介入は,測定性能が緩やかに向上する可能性が示唆された。
関連論文リスト
- Examining Vision Language Models through Multi-dimensional Experiments with Vision and Text Features [0.4934817254755008]
視覚言語モデル(VLM)は、画像の視覚的特性に関する質問に答えるために訓練中に学んだ固有のバイアスに依存する。
本研究の目的は、視覚言語モデルがどのように変化するかを学習し、そのような変化を特徴付ける方法を探ることである。
論文 参考訳(メタデータ) (2025-09-10T03:49:40Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。