論文の概要: Counting to Four is still a Chore for VLMs
- arxiv url: http://arxiv.org/abs/2604.10039v1
- Date: Sat, 11 Apr 2026 05:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.807079
- Title: Counting to Four is still a Chore for VLMs
- Title(参考訳): カウント・トゥ・フォー」は、まだVLMのコレだ
- Authors: Duy Le Dinh Anh, Patrick Amadeus Irawan, Tuan Van Vo,
- Abstract要約: 視覚言語モデル(VLM)は、複雑なマルチモーダル推論タスクにおいて印象的な性能を達成した。
それらは依然として、オブジェクトカウントのような単純な接地スキルで失敗します。
本稿では, 挙動解析と力学解析の両方を通して, VLM計数行動の実証的研究を行った。
- 参考スコア(独自算出の注目度): 3.017198998175514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.
- Abstract(参考訳): 視覚言語モデル(VLM)は、複雑なマルチモーダル推論タスクにおいて印象的な性能を達成しているが、オブジェクトカウントのような単純な基礎技術では失敗している。
既存の評価は主に最終的なアウトプットのみを評価し、モデル内でこれらの障害が発生する場所について限定的な洞察を提供する。
本研究では,VLM計数行動について,動作解析と力学解析の両方を通して実証的研究を行った。
我々は,異なるパッチのレイアウトと対向的なプロンプト条件下で脆弱性を明らかにするために設計された,単純な形状に基づくカウントケースの制御された評価スイートであるCOUNINGTRICKSを紹介した。
注意分析とコンポーネント・ワイド・プロービングを用いて、モーダリティ・プロジェクションの段階では、カウント関連視覚的エビデンスが最も強いが、後続の言語層では大幅に劣化し、テキストの先行性に敏感になることを示す。
本研究の目的は,回答生成時の視覚的注意の最小限の予算を促す軽量な介入である,モダリティ・アテンション・シェア(MAS)を評価することである。
以上の結果から,VLMにおける障害のカウントは,視覚的知覚限界だけでなく,言語段階の推論における視覚的証拠の不足にも起因していることが示唆された。
コードとデータセットはhttps://github.com/leduy99/-CVPRW26-Modality-Attention-Shareでリリースされる。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs [7.406217790017003]
自然主義的環境下での視覚的推論を文脈言語による制御なしで研究するためのベンチマークであるVisRes Benchを紹介した。
3段階の複雑さのモデル行動を分析し、知覚的および関係的な視覚的推論能力の明らかな限界を明らかにする。
我々は、VisResがマルチモーダル研究における抽象的な視覚的推論を促進するための統一的なフレームワークをどのように提供するかについて論じる。
論文 参考訳(メタデータ) (2025-12-24T14:18:38Z) - [De|Re]constructing VLMs' Reasoning in Counting [2.1856941852799134]
制御された実験条件下での計数作業における7つの最先端ビジョンランゲージモデル(VLM)の推論技術について検討した。
レイヤワイズ解析により、エラーは最終層表現の出力空間への誤ったマッピングによるものであることが明らかになった。
対象とするトレーニングでは,出力層のみの微調整により,最大21%の精度が向上した。
論文 参考訳(メタデータ) (2025-10-22T13:08:47Z) - Your Vision-Language Model Can't Even Count to 20: Exposing the Failures of VLMs in Compositional Counting [16.47788191300739]
VLM(Vision-Language Models)は、今日のAIコミュニティの中心となっている。
本稿では,基本的な幾何学的形状しか持たない最小限の設定で設計したベンチマークVLMCountBenchを紹介する。
本研究では, 制御アブレーションにおける色, サイズ, 急激な改質など, 簡便な特性の影響について検討した。
論文 参考訳(メタデータ) (2025-10-06T00:11:24Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。