論文の概要: Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families
- arxiv url: http://arxiv.org/abs/2602.15950v1
- Date: Tue, 17 Feb 2026 19:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.407124
- Title: Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families
- Title(参考訳): 視覚言語モデルでは正方形は見えるか? テキスト認識は3つのモデルファミリ間の空間的推論を媒介する
- Authors: Yuval Levental,
- Abstract要約: 視覚言語モデル (VLM) は, テキスト・アイデンティティが欠如している場合, 充填されたセルをバイナリ・グリッドに正確にローカライズできないことを示す。
密度の異なる15×15のグリッドを生成し、それぞれが2つのイメージタイプ – テキストシンボル (. と #) と、グリッドラインのない充填正方形 – としてレンダリングする。
テキストシンボル条件では、ClaudeとChatGPTはおよそ91%の細胞精度と84%のF1を、Geminiは84%の精度と63%のF1を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple experiment that exposes a fundamental limitation in vision-language models (VLMs): the inability to accurately localize filled cells in binary grids when those cells lack textual identity. We generate fifteen 15x15 grids with varying density (10.7%-41.8% filled cells) and render each as two image types -- text symbols (. and #) and filled squares without gridlines -- then ask three frontier VLMs (Claude Opus, ChatGPT 5.2, and Gemini 3 Thinking) to transcribe them. In the text-symbol condition, Claude and ChatGPT achieve approximately 91% cell accuracy and 84% F1, while Gemini achieves 84% accuracy and 63% F1. In the filled-squares condition, all three models collapse to 60-73% accuracy and 29-39% F1. Critically, all conditions pass through the same visual encoder -- the text symbols are images, not tokenized text. The text-vs-squares F1 gap ranges from 34 to 54 points across models, demonstrating that VLMs behave as if they possess a high-fidelity text-recognition pathway for spatial reasoning that dramatically outperforms their native visual pathway. Each model exhibits a distinct failure mode in the squares condition -- systematic under-counting (Claude), massive over-counting (ChatGPT), and template hallucination (Gemini) -- but all share the same underlying deficit: severely degraded spatial localization for non-textual visual elements.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)の基本的限界を明らかにするための簡単な実験について述べる。
15×15の格子の密度(10.7%-41.8%の充填セル)を生成し、それぞれを2つのイメージタイプ – テキストシンボル(.と#)とグリッドラインのない充填正方形 – として描画し、フロンティアVLM(Claude Opus、ChatGPT 5.2、Gemini 3 Thinking)に書き起こしを依頼する。
テキストシンボル条件では、ClaudeとChatGPTはおよそ91%の細胞精度と84%のF1を、Geminiは84%の精度と63%のF1を達成している。
満たされた2乗状態では、3つのモデルすべてが60-73%の精度と29-39%のF1に崩壊する。
重要なことに、すべての条件が同じビジュアルエンコーダを通過する。テキストシンボルは画像であり、トークン化されたテキストではない。
テキスト-vs-squares F1ギャップは、モデル全体で34点から54点までの範囲で、VLMは、空間的推論のための高忠実なテキスト認識経路を持っているかのように振る舞う。
各モデルは、正方形状態(システマティックアンダーカウンティング(Claude)、大規模オーバーカウンティング(ChatGPT)、テンプレート幻覚(Gemini))において、異なる障害モードを示す。
関連論文リスト
- GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts [59.508903852810796]
GSM8K-Vは、純粋に視覚的なマルチイメージの数学的推論ベンチマークである。
GSM8K-Vは、広く使われているテキストベースのGSM8Kからサンプルを視覚的にマッピングすることで構築される。
我々は,GSM8K-V上で,幅広いオープンソースおよびクローズドソースモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T17:57:05Z) - Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition [4.562684361220731]
位置認識タスクのためのテキストビジョン登録手法であるText4VPRを提案する。
Text4VPRは、画像のデータベースにマッチするテキスト記述のみを利用する。
私たちが作成したVPRデータセットをイメージする最初のテキストであるStreet360Locでは、Text4VPRが堅牢なベースラインを構築し、トップ1の精度が57%、トップ10の精度がテストセットの半径5m以内で92%に達した。
論文 参考訳(メタデータ) (2025-02-20T02:00:02Z) - Vision language models are blind: Failing to translate detailed visual features into words [1.2499537119440245]
視覚能力を持つ大規模言語モデル(VLM)は、人間にとって容易な低レベルの視覚タスクに苦労する。
BlindTestでは、4つの最先端VLMが平均58.07%の精度しか示していない。
クロード3.5ソンネットは77.84%の精度で最高の成績を収めている。
論文 参考訳(メタデータ) (2024-07-09T06:20:17Z) - A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [50.58626342189163]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [77.59074909960913]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。