論文の概要: Reasoning or Pattern Matching? Probing Large Vision-Language Models with Visual Puzzles
- arxiv url: http://arxiv.org/abs/2601.13705v1
- Date: Tue, 20 Jan 2026 08:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.213892
- Title: Reasoning or Pattern Matching? Probing Large Vision-Language Models with Visual Puzzles
- Title(参考訳): 推論とパターンマッチング : 視覚プラグを用いた大規模視覚言語モデルの提案
- Authors: Maria Lymperaiou, Vasileios Karampinis, Giorgos Filandrianos, Angelos Vlachos, Chrysoula Zerva, Athanasios Voulodimos,
- Abstract要約: このサーベイは、LVLMにおける視覚パズル推論の統一的な視点を提供する。
共通の抽象化を通じて視覚パズルをフレーム化し、それらがターゲットとする推論メカニズムによって既存のベンチマークを編成する。
我々は、不安定な一般化、知覚と推論の密接な絡み合い、流動的な説明と忠実な実行の間の永続的なギャップなど、現在のモデルにおける一貫した限界を識別する。
- 参考スコア(独自算出の注目度): 13.059313134998192
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Puzzles have long served as compact and revealing probes of human cognition, isolating abstraction, rule discovery, and systematic reasoning with minimal reliance on prior knowledge. Leveraging these properties, visual puzzles have recently emerged as a powerful diagnostic tool for evaluating the reasoning abilities of Large Vision-Language Models (LVLMs), offering controlled, verifiable alternatives to open-ended multimodal benchmarks. This survey provides a unified perspective of visual puzzle reasoning in LVLMs. We frame visual puzzles through a common abstraction and organize existing benchmarks by the reasoning mechanisms they target (inductive, analogical, algorithmic, deductive, and geometric/spatial), thereby linking puzzle design to the cognitive operations required for solving. Synthesizing empirical evidence across these categories, we identify consistent limitations in current models, including brittle generalization, tight entanglement between perception and reasoning, and a persistent gap between fluent explanations and faithful execution. By framing visual puzzles as diagnostic instruments rather than task formats, this survey elaborates on the state of LVLM reasoning and outlines key directions for future benchmarks and reasoning-aware multimodal systems.
- Abstract(参考訳): パズルは長い間、人間の認知、抽象化の分離、ルール発見、体系的な推論を、事前の知識に最小限に依存したコンパクトで露呈的なプローブとして機能してきた。
これらの特性を活用することで、視覚パズルはLVLM(Large Vision-Language Models)の推論能力を評価する強力な診断ツールとして登場し、オープンエンドマルチモーダルベンチマークに対する制御された検証可能な代替手段を提供している。
このサーベイはLVLMにおける視覚パズル推論の統一的な視点を提供する。
視覚パズルは共通の抽象化を通じて構成され,対象とする推論機構(帰納的,類推的,アルゴリズム的,帰納的,幾何学的/空間的)によって既存のベンチマークを整理し,パズル設計と問題解決に必要な認知操作をリンクする。
これらのカテゴリにまたがって経験的証拠を合成し、不安定な一般化、知覚と推論の密接な絡み合い、流動的な説明と忠実な実行の間の永続的なギャップを含む、現在のモデルの一貫した限界を同定する。
本研究は,視覚パズルをタスク形式ではなく診断機器として扱うことにより,LVLM推論の状況について詳しく検討し,将来のベンチマークや推論対応マルチモーダルシステムの主要な方向性について概説する。
関連論文リスト
- Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models [0.0]
視覚言語モデル(VLM)は多くのマルチモーダルなタスクに優れるが、認知過程はリバスパズルのような複雑な横方向の思考課題に不透明である。
本研究は、6つの認知カテゴリーにまたがる221のリバスパズルの体系的な注釈付きデータセットに、推論品質と回答の正しさを区別する評価フレームワークを組み合わさったものである。
本研究は,視覚構成の体系的強みを示すモデルを用いて,推論品質がパズルのカテゴリによって劇的に変化することを示すとともに,不在解釈の基本的な限界と文化的象徴性を示すことを示した。
論文 参考訳(メタデータ) (2025-10-03T07:27:47Z) - From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge [45.20691825097646]
私たちはビジュアル推論をターゲットとしたベンチマークであるVisualPuzzlesを紹介します。
VisualPuzzlesは5つのカテゴリにまたがる多様な質問で構成されている。
論文 参考訳(メタデータ) (2025-04-14T15:50:39Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。