論文の概要: Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.02780v1
- Date: Fri, 03 Oct 2025 07:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.299346
- Title: Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models
- Title(参考訳): Reasoning Riddles:視覚言語モデルにおける認知限界の説明可能性について
- Authors: Prahitha Movva,
- Abstract要約: 視覚言語モデル(VLM)は多くのマルチモーダルなタスクに優れるが、認知過程はリバスパズルのような複雑な横方向の思考課題に不透明である。
本研究は、6つの認知カテゴリーにまたがる221のリバスパズルの体系的な注釈付きデータセットに、推論品質と回答の正しさを区別する評価フレームワークを組み合わさったものである。
本研究は,視覚構成の体系的強みを示すモデルを用いて,推論品質がパズルのカテゴリによって劇的に変化することを示すとともに,不在解釈の基本的な限界と文化的象徴性を示すことを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel at many multimodal tasks, yet their cognitive processes remain opaque on complex lateral thinking challenges like rebus puzzles. While recent work has demonstrated these models struggle significantly with rebus puzzle solving, the underlying reasoning processes and failure patterns remain largely unexplored. We address this gap through a comprehensive explainability analysis that moves beyond performance metrics to understand how VLMs approach these complex lateral thinking challenges. Our study contributes a systematically annotated dataset of 221 rebus puzzles across six cognitive categories, paired with an evaluation framework that separates reasoning quality from answer correctness. We investigate three prompting strategies designed to elicit different types of explanatory processes and reveal critical insights into VLM cognitive processes. Our findings demonstrate that reasoning quality varies dramatically across puzzle categories, with models showing systematic strengths in visual composition while exhibiting fundamental limitations in absence interpretation and cultural symbolism. We also discover that prompting strategy substantially influences both cognitive approach and problem-solving effectiveness, establishing explainability as an integral component of model performance rather than a post-hoc consideration.
- Abstract(参考訳): 視覚言語モデル(VLM)は多くのマルチモーダルなタスクに優れるが、認知過程はリバスパズルのような複雑な横方向の思考課題に不透明である。
最近の研究では、これらのモデルがリバスパズルの解決にかなり苦労していることが証明されているが、根底にある推論プロセスと失敗パターンはほとんど未解明のままである。
我々は、VLMがこれらの複雑な横方向の思考課題にどのようにアプローチするかを理解するために、パフォーマンス指標を超えて包括的な説明可能性分析を通じて、このギャップに対処する。
本研究は、6つの認知カテゴリーにまたがる221のリバスパズルの体系的な注釈付きデータセットに、推論品質と回答の正しさを区別する評価フレームワークを組み合わさったものである。
本研究は,異なるタイプの説明過程を抽出し,VLM認知過程に対する重要な洞察を明らかにするために設計された3つのプロンプト戦略について検討する。
本研究は,視覚構成の体系的強みを示すモデルを用いて,推論品質がパズルのカテゴリによって劇的に変化することを示すとともに,不在解釈の基本的な限界と文化的象徴性を示すことを示した。
また,提案手法は認知的アプローチと問題解決の有効性の両方に大きく影響し,ポストホックな考察よりもモデル性能の不可欠な構成要素として説明可能性を確立した。
関連論文リスト
- From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [59.85951092642609]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Puzzle Solving using Reasoning of Large Language Models: A Survey [1.9939549451457024]
本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-17T14:19:38Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。