論文の概要: Your Vision-Language Model Can't Even Count to 20: Exposing the Failures of VLMs in Compositional Counting
- arxiv url: http://arxiv.org/abs/2510.04401v1
- Date: Mon, 06 Oct 2025 00:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.633413
- Title: Your Vision-Language Model Can't Even Count to 20: Exposing the Failures of VLMs in Compositional Counting
- Title(参考訳): ヴィジュアル・ランゲージ・モデルは20まで数えられない: 作曲数におけるVLMの失敗を露呈する
- Authors: Xuyang Guo, Zekai Huang, Zhenmei Shi, Zhao Song, Jiahao Zhang,
- Abstract要約: VLM(Vision-Language Models)は、今日のAIコミュニティの中心となっている。
本稿では,基本的な幾何学的形状しか持たない最小限の設定で設計したベンチマークVLMCountBenchを紹介する。
本研究では, 制御アブレーションにおける色, サイズ, 急激な改質など, 簡便な特性の影響について検討した。
- 参考スコア(独自算出の注目度): 16.47788191300739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have become a central focus of today's AI community, owing to their impressive abilities gained from training on large-scale vision-language data from the Web. These models have demonstrated strong performance across diverse tasks, including image understanding, video understanding, complex visual reasoning, and embodied AI. Despite these noteworthy successes, a fundamental question remains: Can VLMs count objects correctly? In this paper, we introduce a simple yet effective benchmark, VLMCountBench, designed under a minimalist setting with only basic geometric shapes (e.g., triangles, circles) and their compositions, focusing exclusively on counting tasks without interference from other factors. We adopt strict independent variable control and systematically study the effects of simple properties such as color, size, and prompt refinement in a controlled ablation. Our empirical results reveal that while VLMs can count reliably when only one shape type is present, they exhibit substantial failures when multiple shape types are combined (i.e., compositional counting). This highlights a fundamental empirical limitation of current VLMs and motivates important directions for future research.
- Abstract(参考訳): VLM(Vision-Language Models)は、Webからの大規模ビジョン言語データのトレーニングから得られた、印象的な能力のため、今日のAIコミュニティの中心的な存在になっています。
これらのモデルは、画像理解、ビデオ理解、複雑な視覚的推論、具体化AIなど、さまざまなタスクにわたって強力なパフォーマンスを示している。
これらの注目すべき成功にもかかわらず、根本的な疑問が残る。 VLMはオブジェクトを正しく数えることができるか?
本稿では, 基本的な幾何学的形状(三角形, 円)とそれらの構成のみを最小限に設計した, 単純で効果的なベンチマーク VLMCountBench について紹介する。
我々は厳密な独立変数制御を採用し、制御されたアブレーションにおける色、サイズ、迅速な改善といった単純な性質の効果を体系的に研究する。
実験の結果、VLMは1つの形状型しか存在しない場合に確実にカウントできるが、複数の形状型が組み合わされた場合(つまり、構成的カウント)に重大な障害が生じることがわかった。
これは、現在のVLMの基本的な実証的な制限を強調し、将来の研究にとって重要な方向性を動機付けている。
関連論文リスト
- Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Revisiting Visual Understanding in Multimodal Reasoning through a Lens of Image Perturbation [38.740533834549716]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。
そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。
本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-11T13:39:46Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。