論文の概要: Unveiling the Visual Counting Bottleneck in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.30170v1
- Date: Thu, 28 May 2026 16:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.529917
- Title: Unveiling the Visual Counting Bottleneck in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける視覚的カウントボトルネックの展開
- Authors: Xingzhou Pang, Yifan Hou, Junling Wang, Mrinmaya Sachan,
- Abstract要約: この研究は視覚的数え上げを3つの認知段階(視覚的識別、大きさ認識、象徴的マッピング)に分解する。
合成Go基板と線形プローブを用いて、視覚的バックボーンは、外挿系にしっかりと、線形に分離可能な量表現を保っていることを示す。
我々は、崩壊をシンボルマッピングステージに向ける。そこでは、モデルがシンボルトークンに有効な視覚的大きさを投影することに失敗する。
- 参考スコア(独自算出の注目度): 49.591496870141846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Vision-Language Models (VLMs) excel at interpolation, they suffer catastrophic failures in systematic generalization, most notably in visual counting. In this work, we investigate this extrapolation bottleneck by deconstructing visual counting into three cognitive stages: visual individuation, magnitude awareness, and symbolic mapping. Using synthetic Go boards and linear probes, we demonstrate that visual backbones maintain robust, linearly separable representations of quantity well into the extrapolation regime, ruling out perceptual failure. Furthermore, models retain latent magnitude awareness, successfully performing comparative reasoning on quantities they fail to enumerate. We pinpoint the collapse to the symbolic mapping stage, where the model fails to project valid visual magnitudes onto symbolic tokens. Our findings support a frac tured magnitude hypothesis: VLMs fail to acquire a universal number space, instead learning disjoint, modality-specific statistical manifolds that prevent cross-modal grounding for unseen quantities. Validated on the state-of-the-art foundation model, our results suggest that bridging this gap requires inductive priors enforcing unified representations, as data scaling alone is insufficient.
- Abstract(参考訳): 大きな視覚・言語モデル(VLM)は補間において優れているが、システマティックな一般化において破滅的な失敗を経験しており、特に視覚的数え上げにおいて顕著である。
本研究では,視覚的数え上げを視覚的識別,大きさ認識,象徴的マッピングという3つの認知段階に分解することで,この外挿ボトルネックを解明する。
合成Go基板と線形プローブを用いて、視覚的バックボーンは、外挿系にしっかりと、線形に分離可能な量表現を保ち、知覚的失敗を排除していることを示す。
さらに、モデルは遅延等級の認識を保持し、列挙できない量について比較推論を成功させる。
我々は、崩壊をシンボルマッピングステージに向ける。そこでは、モデルがシンボルトークンに有効な視覚的大きさを投影することに失敗する。
我々の発見はフラクチャチャード等級仮説を支持している: VLM は普遍的な数空間を得ることができず、不連続なモダリティ固有の統計多様体を学習し、不明瞭な量に対するクロスモーダル接地を防ぐ。
このギャップを埋めるには、データのスケーリングだけでは不十分であるため、統一された表現を強制するインダクティブな先入観が必要であることを示唆する。
関連論文リスト
- Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning [2.6641834518599303]
視覚言語モデル(VLM)はボンガード問題のような抽象的な視覚推論ベンチマークでは失敗することが多い。
我々は,LOGOスタイルのアクションプログラムや構造化記述に基づいて,Bongard-LOGOをシンボリック推論タスクとして再構築する。
論文 参考訳(メタデータ) (2026-04-23T07:03:48Z) - The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm [1.0742675209112622]
我々は、現在のビジョン・ランゲージ・モデルがマルチモーダルデータを忠実に合成するわけではないと論じる。
モーダリティ変換プロトコル(Modality Translation Protocol)を提案する。
論文 参考訳(メタデータ) (2026-04-22T15:15:32Z) - Counting to Four is still a Chore for VLMs [3.017198998175514]
視覚言語モデル(VLM)は、複雑なマルチモーダル推論タスクにおいて印象的な性能を達成した。
それらは依然として、オブジェクトカウントのような単純な接地スキルで失敗します。
本稿では, 挙動解析と力学解析の両方を通して, VLM計数行動の実証的研究を行った。
論文 参考訳(メタデータ) (2026-04-11T05:23:19Z) - Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs [47.94507630961399]
トレーニング不要なデコードフレームワークであるVISAGEを導入し、推論時に目的を校正する。
我々は、VISAGEが推定誤差の下で有界目的損失を維持することを保証する解析的安定性を保証する。
幻覚感受性および汎用ベンチマークによる評価は、フレームワークの堅牢性を示している。
論文 参考訳(メタデータ) (2026-03-26T17:53:49Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - Kelix Technical Report [86.64551727600104]
我々は、完全離散自己回帰統一モデルであるKelixを紹介し、離散的および連続的な視覚表現間の理解ギャップを埋める。
最近の研究は、完全自己回帰型マルチモーダルモデリングを可能にするために、離散的な視覚的トークン化を探求している。
論文 参考訳(メタデータ) (2026-02-10T14:48:26Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies [40.03295633717008]
視覚錯覚と異常のモデル性能を探索するベンチマークであるVIA-Benchを紹介する。
我々は1K以上の高品質な問合せ対を構築し、微妙な視覚的推論を必要とする。
以上の結果から,知覚的ボトルネックの解消が人工知能の進歩に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-02T08:48:03Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。