論文の概要: Toward Cognitive Supersensing in Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2602.01541v1
- Date: Mon, 02 Feb 2026 02:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.846028
- Title: Toward Cognitive Supersensing in Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルにおける認知的スーパーセンシングに向けて
- Authors: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao,
- Abstract要約: 我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
- 参考スコア(独自算出の注目度): 67.15559571626747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、オープン語彙の知覚タスクにおいて顕著な成功を収めているが、複雑な認知問題を解く能力は、特に視覚的詳細が抽象的で視覚的記憶を必要とする場合に限られている。
現在のアプローチは主にテキスト空間におけるChain-of-Thought(CoT)推論をスケールしており、言語だけでは明確で構造化された推論には不十分であり、人間の視覚空間スケッチパッドや視覚画像と類似した視覚的推論機構をほとんど無視している。
この欠陥を緩和するために、認知的スーパーセンシング(Cognitive Supersensing)という新しいトレーニングパラダイムを導入し、視覚的認知的潜伏埋め込みのシーケンスを共同で学習するLVIP(Latent Visual Imagery Prediction)ヘッドを統合し、視覚ベースの内部推論チェーンを形成する。
さらに、この接地された視覚的潜伏に基づくテキスト推論経路を最適化する強化学習ステージを導入する。
MLLMの認知能力を評価するために,5つの認知次元を評価する包括的視覚質問応答(VQA)ベンチマークであるCogSense-Benchを提案する。
広範囲にわたる実験により、認知スーパーセンシングで訓練されたMLLMは、CogSense-Benchの最先端のベースラインを大幅に上回り、ドメイン外の数学と科学のVQAベンチマークに優れた一般化を示すことが示され、内部の視覚イメージが知覚認識と認知理解のギャップを埋める鍵となる可能性が示唆された。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
関連論文リスト
- Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning [54.12174882424842]
大規模言語モデル(LLM)は、様々なタスクにおいて最先端のパフォーマンスを達成したが、内部メカニズムに関してはほとんど不透明である。
本稿では,注目者の役割と行動を体系的に分析する新しい解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T10:24:34Z) - Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs [22.46006112029019]
メンタル・ヴィジュアライゼーションは人間にとって重要な認知能力であり、空間ナビゲーション、物理的な軌道予測、想像的シミュレーションによる複雑な視覚問題の解決などの能力をサポートする。
マルチモーダル大規模言語モデル (MLLM) の心的可視化能力を評価するために, 慎重に構築された4つのパズルを用いて, ハイパーファンタジア(Hyperphantasia)を提案する。
我々の最先端モデルに対する包括的評価は、人間とMLLMの性能の間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2025-07-16T05:54:37Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。