論文の概要: CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.17826v1
- Date: Mon, 18 May 2026 04:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.799922
- Title: CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models
- Title(参考訳): CounterCount:ビジョン言語モデルでバイアスをカウントする診断フレームワーク
- Authors: Reem Alzahrani, Hassan Alshanqiti, Bushra Bin Hemid, Zaid Alyafeai, Abdelrahman Eldesokey, Bernard Ghanem,
- Abstract要約: VLM(Vision-Language Models)はマルチモーダル推論において優れているが、その答えが視覚的証拠に根ざされているか、あるいは学習言語や世界の先駆者によって駆動されているかは定かではない。
本稿では,VLMにおけるデファクトカウントの診断フレームワークであるCounterCountを紹介する。
これらの失敗は、欠落または曖昧な視覚的証拠によるものではなく、無関係な視覚的トークンへの注意を過小評価するモデルによるものであることを示す。
- 参考スコア(独自算出の注目度): 44.585250047959924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel at multimodal reasoning, yet it remains unclear whether their answers are grounded in visual evidence or driven by learned language and world priors. Counting provides a precise testbed: when visual evidence conflicts with canonical object knowledge, a model must rely on the image rather than a prototypical count. We introduce CounterCount, a diagnostic framework for counterfactual counting in VLMs, consisting of paired factual and counterfactual images with edited count-relevant attributes, verified answers, and localized evidence annotations. Evaluating recent VLMs, we find strong performance on factual images but consistent degradation under counterfactual attribute changes, indicating reliance on object-level priors even when contradictory visual evidence is present. Using localized annotations, we show that these failures are not solely due to missing or ambiguous visual evidence, but to models underweighting attention to count-relevant visual tokens. We introduce a unified inference-time attention modulation strategy that reweights selected visual tokens, improving counterfactual counting accuracy by up to 8% across multiple VLMs. Overall, CounterCount exposes prior-driven counting failures and provides diagnostic insights for designing future VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)はマルチモーダル推論において優れているが、その答えが視覚的証拠に根ざされているか、あるいは学習言語や世界の先駆者によって駆動されているかは定かではない。
視覚的証拠が標準的対象知識と矛盾する場合、モデルは原型的数ではなくイメージに依存する必要がある。
本稿では,VLMにおける反実数計測のための診断フレームワークであるCounterCountを紹介する。
近年のVLMの評価では, 事実像に対して強い性能を示すが, 反実的属性変化による一貫した劣化がみられ, 矛盾する視覚的証拠が存在する場合でも, オブジェクトレベルの先行性に依存することが示唆された。
局所アノテーションを用いることで、これらの失敗は単に視覚的証拠の欠如や曖昧さによるものではなく、無関係な視覚的トークンへの注意を過小評価するモデルによるものであることを示す。
我々は,選択した視覚トークンを重み付けし,複数のVLMにまたがる対実カウント精度を最大8%向上する統合的推論時間アテンション変調戦略を導入する。
全体として、CounterCountは事前駆動のカウント障害を公開し、将来のVLMを設計するための診断的洞察を提供する。
関連論文リスト
- Count Anything at Any Granularity [55.70950689938894]
KubriCountは、これまでで最大で、最も包括的な注釈付きカウントデータセットである。
テキストと視覚的特徴を相補的なターゲット仕様として併用する多粒カウントモデルを訓練する。
HieraCountは、マルチグラデーションカウントの精度を大幅に改善し、現実のシナリオに対して堅牢に一般化する。
論文 参考訳(メタデータ) (2026-05-11T17:32:37Z) - ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文 参考訳(メタデータ) (2026-04-27T10:45:51Z) - Counting to Four is still a Chore for VLMs [3.017198998175514]
視覚言語モデル(VLM)は、複雑なマルチモーダル推論タスクにおいて印象的な性能を達成した。
それらは依然として、オブジェクトカウントのような単純な接地スキルで失敗します。
本稿では, 挙動解析と力学解析の両方を通して, VLM計数行動の実証的研究を行った。
論文 参考訳(メタデータ) (2026-04-11T05:23:19Z) - Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - When Visuals Aren't the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations [29.03749623289173]
視覚言語モデル (VLM) は, 推論誤りの微粒な分類法を基礎とした, 誤解を招くビジュアル・キャプション・ペアについて評価する。
我々は、現実世界の視覚化と、人間が書いたキュレートされた誤解を招くキャプションを組み合わせたベンチマークを開発する。
論文 参考訳(メタデータ) (2026-03-23T05:34:47Z) - Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文 参考訳(メタデータ) (2026-03-17T08:40:26Z) - Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images [34.324634481264034]
我々は、忠実な視覚的推論を評価するために設計されたプロセス検証可能なベンチマークであるViEBenchを提案する。
専門家による視覚的エビデンスを含む200個の高解像度画像を合成し、ViEBenchは難易度でタスクを知覚と推論の次元に分類する。
実験の結果,(1)VLMは無関係な領域に接するにもかかわらず,正しい最終回答を導き出すことができ,(2)正しい証拠を見つけることはできるが,正確な結論に至らなかった。
論文 参考訳(メタデータ) (2026-01-14T07:25:15Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。