Fugu-MT 論文翻訳(概要): Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

論文の概要: Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

arxiv url: http://arxiv.org/abs/2604.09687v2
Date: Tue, 14 Apr 2026 19:13:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 16:10:33.687366
Title: Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models
Title（参考訳）: Grid2Matrix:ビジョンランゲージモデルにおけるディジタルアグノシアの実現
Authors: Yunkai Zhang, Linda Li, Yingxin Cui, Xiyuan Ruan, Zeyu Zheng, Kezhen Chen, Yi Zhang, Diji Yang,
Abstract要約: モデルが色グリッドと色から数へのマッピングを示すベンチマークであるGrid2Matrixを導入し、対応する行列を出力しなければならない。ビジョン・ランゲージ・モデルでは,タスクがより密化するにつれて徐々に劣化する代わりに,驚くほど小さなグリッドで失敗し,ゼロショット・エンド・ツー・エンドの評価において急激な早期崩壊を示すことがわかった。このことは、失敗は視覚的エンコーディングだけで説明されるのではなく、視覚的特徴から回復可能なものと最終的に言語で表現されるものとの間のギャップを反映していることを示している。
参考スコア（独自算出の注目度）: 15.296013139911034
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Vision-Language Models (VLMs) excel on many multimodal reasoning benchmarks, but these evaluations often do not require an exhaustive readout of the image and can therefore obscure failures in faithfully capturing all visual details. We introduce Grid2Matrix (G2M), a controlled benchmark in which a model is shown a color grid and a color-to-number mapping, and must output the corresponding matrix. By varying grid size and the number of colors, G2M provides a simple way to increase visual complexity while minimizing semantic confounds. We find that VLMs exhibit a sharp early collapse in zero-shot end-to-end evaluation, failing on surprisingly small grids rather than degrading gradually as the task becomes denser. We probe the visual encoders of VLMs from two representative families and find that they preserve substantially more of the grid information than the corresponding end-to-end outputs. This suggests that the failure is not explained by visual encoding alone, but also reflects a gap between what remains recoverable from visual features and what is ultimately expressed in language. We term this gap \textit{Digital Agnosia}. Further analyses show that these errors are highly structured and depend strongly on how grid cells overlap with visual patch boundaries. We also find that common strategies such as model scaling and multimodal alignment do not fully eliminate this failure mode. We expect G2M to serve as a useful testbed for understanding where and how VLMs lose fine visual details, and for evaluating tasks where missing even small visual details can matter, such as tables, charts, forms, and GUIs.
Abstract（参考訳）: VLM(Vision-Language Models)は多くのマルチモーダル推論ベンチマークを排他的に評価するが、これらの評価は画像の徹底的な読み出しを必要としないため、すべての視覚的詳細を忠実に捉えるのに失敗する可能性がある。 Grid2Matrix (G2M) は、モデルにカラーグリッドとカラー・ツー・ナンバーマッピングが示され、対応する行列を出力しなければならない制御ベンチマークである。グリッドサイズや色数によって、G2Mはセマンティック・コンファウンドを最小化しながら視覚的複雑さを増大させる簡単な方法を提供する。 VLMは、タスクがより密化するにつれて徐々に劣化するのではなく、驚くほど小さなグリッドで失敗し、ゼロショットのエンドツーエンド評価において急激な早期崩壊を示す。 2つの代表ファミリーからVLMの視覚エンコーダを探索し、対応するエンドツーエンド出力よりも、グリッド情報のかなり多くを保存することを発見した。このことは、失敗は視覚的エンコーディングだけで説明されるのではなく、視覚的特徴から回復可能なものと最終的に言語で表現されるものとの間のギャップを反映していることを示している。このギャップを「textit{Digital Agnosia}」と呼ぶ。さらに分析したところ、これらのエラーは高度に構造化されており、グリッドセルと視覚パッチの境界との重なり合いに強く依存していることがわかった。また、モデルスケーリングやマルチモーダルアライメントといった一般的な戦略が、この障害モードを完全に排除していないこともわかりました。我々は、G2Mが、VLMが細かな視覚的詳細を失う場所と方法を理解し、テーブル、チャート、フォーム、GUIなどの小さな視覚的詳細が欠落しているタスクを評価するのに有用なテストベッドとして機能することを期待している。

関連論文リスト

Visual-ERM: Reward Modeling for Visual Equivalence [59.317480168347664]
Visual Equivalence Reward Model (Visual-ERM)は、細粒度、解釈可能、タスクに依存しないフィードバックを提供するマルチモーダル生成報酬モデルである。 Visual-ERM は Qwen3-VL-8B-Instruct を 8.4 で改善し、テーブルとSVGのパースで一貫したゲインを得る。 VisualCritic-RewardBench(VC-RewardBench)は、構造化された視覚データに対して微細な画像と画像の相違を判定するためのベンチマークである。
論文参考訳（メタデータ） (2026-03-13T17:58:14Z)
OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models [20.960448611782585]
我々は,MLLMの視差感度を評価するための制御可能なベンチマークであるOddGridBenchを紹介する。実験の結果、Qwen3-VLやInternVL3.5のようなオープンソースのファミリーや、Gemini-2.5-ProやGPT-5のようなプロプライエタリなシステムを含むすべての評価されたMLLMが、視覚的差分検出において人間のレベルよりもはるかに低い性能を発揮することが明らかになった。我々は,カリキュラム学習と距離認識報酬を統合した強化学習フレームワークOddGrid-GRPOを提案する。
論文参考訳（メタデータ） (2026-03-10T08:01:30Z)
Visually Prompted Benchmarks Are Surprisingly Fragile [82.98001690512461]
VLMを評価する上で重要な課題は、視覚コンテンツをテキストから独立して分析する能力をテストすることである。ビジュアルマーカーの設計やデータセットサイズなど,ベンチマーク設定の詳細が,モデルパフォーマンスやリーダボードのランキングに大きく影響していることを実証する。この不安定性を軽減するため、既存のデータセットをキュレートして16のビジュアルマーカーのバリエーションを備えた、より大きな視覚的にトリガーされたベンチマークであるVPBenchを作成します。
論文参考訳（メタデータ） (2025-12-19T18:26:58Z)
FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges [85.24983823102262]
本稿では,テキスト・トゥ・イメージ(T2I)モデルと視覚言語モデル(VLM)を評価するための構造化手法を提案する。我々は,挑戦的プロンプトで条件付きT2Iモデルにより生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証した。以上の結果から,現在の測定値ではこれらの誤差を捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2025-12-01T19:46:03Z)
D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。 D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文参考訳（メタデータ） (2025-02-04T00:46:11Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。 VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文参考訳（メタデータ） (2024-04-09T17:30:18Z)
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文参考訳（メタデータ） (2023-10-12T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。