論文の概要: Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2604.21346v1
- Date: Thu, 23 Apr 2026 07:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.345698
- Title: Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning
- Title(参考訳): 抽象的視覚的推論における記号的接地調査
- Authors: Mohit Vaishnav, Tanel Tammet,
- Abstract要約: 視覚言語モデル(VLM)はボンガード問題のような抽象的な視覚推論ベンチマークでは失敗することが多い。
我々は,LOGOスタイルのアクションプログラムや構造化記述に基づいて,Bongard-LOGOをシンボリック推論タスクとして再構築する。
- 参考スコア(独自算出の注目度): 2.6641834518599303
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision--language models (VLMs) often fail on abstract visual reasoning benchmarks such as Bongard problems, raising the question of whether the main bottleneck lies in reasoning or representation. We study this on Bongard-LOGO, a synthetic benchmark of abstract concept learning with ground-truth generative programs, by comparing end-to-end VLMs on raw images with large language models (LLMs) given symbolic inputs derived from those images. Using symbolic inputs as a diagnostic probe rather than a practical multimodal architecture, our \emph{Componential--Grammatical (C--G)} paradigm reformulates Bongard-LOGO as a symbolic reasoning task based on LOGO-style action programs or structured descriptions. LLMs achieve large and consistent gains, reaching mid--90s accuracy on Free-form problems, while a strong visual baseline remains near chance under matched task definitions. Ablations on input format, explicit concept prompts, and minimal visual grounding show that these factors matter much less than the shift from pixels to symbolic structure. These results identify representation as a key bottleneck in abstract visual reasoning and show how symbolic input can serve as a controlled diagnostic upper bound.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ボンガード問題のような抽象的な視覚的推論のベンチマークで失敗することが多く、主要なボトルネックが推論や表現にあるかどうかという疑問を提起する。
本研究は,抽象概念学習の総合ベンチマークであるBongard-LOGOにおいて,原画像上でのエンドツーエンドのVLMと,それらの画像から得られる記号的入力(LLM)を比較して検討する。
シンボル入力を実用的マルチモーダルアーキテクチャではなく診断プローブとして用いることで,Obgard-LOGOをLOGOスタイルのアクションプログラムや構造化記述に基づくシンボリック推論タスクとして再構成する。
LLMは最大かつ一貫したゲインを達成し、90年代半ばのフリーフォーム問題では精度が向上した。
入力形式、明示的な概念のプロンプト、最小の視覚的接地は、これらの因子がピクセルからシンボル構造へのシフトよりもはるかに少ないことを示している。
これらの結果は、抽象的な視覚的推論において、表現が重要なボトルネックであると認識し、シンボリック入力が制御された診断上界としてどのように機能するかを示す。
関連論文リスト
- VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [70.44416154144001]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL [11.10804309162152]
大規模合成視覚論理推論学習データであるVisualSphinxを提案する。
そこで本研究では,画像合成の課題を解決するために,ルール・ツー・イメージ合成パイプラインを提案する。
実験により、VisualSphinx上でGRPOを使用してトレーニングされたVLMは、私たちのデータセットの論理的一貫性と可読性から恩恵を受けることが示された。
論文 参考訳(メタデータ) (2025-05-29T20:08:36Z) - Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers [1.3812010983144802]
最近のニューロシンボリックアプローチは、解釈可能性を高めるためにCNNベースのモデルからシンボリック・ルールセットを抽出することに成功している。
本稿では、スパースオートエンコーダ(SAE)にインスパイアされたスパース概念層を導入し、視覚変換器(ViT)からシンボルルールを抽出するフレームワークを提案する。
本手法は,記号的推論が可能でありながら,標準のViTよりも5.14%の精度で分類できる。
論文 参考訳(メタデータ) (2025-05-10T19:45:15Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。