Fugu-MT 論文翻訳(概要): Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

論文の概要: Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

arxiv url: http://arxiv.org/abs/2603.18472v1
Date: Thu, 19 Mar 2026 04:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.952204
Title: Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding
Title（参考訳）: 離散記号理解のための多モーダル大言語モデルにおける認知ミスマッチ
Authors: Yinghui Li, Jiayi Kuang, Peng Xing, Daixian Liu, Junnan Dong, Shu-Yu Guo, Yangning Li, Qingyu Zhou, Wenhao Jiang, Hai-Tao Zheng, Ying Shen, Liang Lin, Philip S. Yu,
Abstract要約: 本稿では,最上位のMLLMが個別の意味空間をどのようにナビゲートするかを評価するためのベンチマークを紹介する。モデルは基本的なシンボル認識に失敗することが多いが、複雑な推論タスクに成功している。この作業は、より厳格で人間指向のインテリジェントなシステムを開発するためのロードマップを提供する。
参考スコア（独自算出の注目度）: 96.81411333150213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は自然界の解釈において顕著な成功を収めてきたが、人間の認知の基本的な構成要素である離散的なシンボルを処理する能力は、依然として重要なオープンな疑問である。連続的な視覚データとは異なり、数学的公式、化学構造、言語的文字などの記号は正確により深い解釈を必要とする。本稿では,トップ層MLLMが言語,文化,数学,物理,化学の5分野にわたって,これらの「離散意味空間」をどのようにナビゲートするかを評価するための総合的なベンチマークを紹介する。モデルはしばしば基本的なシンボル認識に失敗するが、複雑な推論タスクには成功せず、真の視覚的知覚よりも言語的確率に依存することを示唆している。科学的な発見と抽象的な思考を支える象徴的な言語を真に知覚し理解することの難しさです。この作業は、より厳格で人間指向のインテリジェントなシステムを開発するためのロードマップを提供する。

関連論文リスト

Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
Quantification and object perception in Multimodal Large Language Models deviate from human linguistic cognition [0.12314765641075438]
数量化は(Multimodal) Large Language Models (MLLM) にとって特に難しい言語現象であることが証明されている。本稿では,(M)LLM文献においてこれまで未発見であった言語間共用人間の量子化の3つの重要な特徴について考察する。
論文参考訳（メタデータ） (2025-11-11T11:30:21Z)
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth [21.092167028989632]
ドライブロロジーは「深みのあるナンセンス」によって特徴づけられる言語現象である我々は、英語、マンダリン、スペイン語、フランス語、日本語、韓国語で、1200以上の精巧にキュレートされ、多様なサンプルのベンチマークデータセットを構築した。現在の大規模言語モデル (LLM) は,ドライブロジカルテキストの階層的意味論の理解に一貫して失敗している。
論文参考訳（メタデータ） (2025-09-04T03:58:55Z)
Neurosymbolic Graph Enrichment for Grounded World Models [47.92947508449361]
複雑な問題に対処するために, LLM の反応性を向上し, 活用するための新しいアプローチを提案する。我々は,大規模言語モデルの強みと構造的意味表現を組み合わせた,多モーダルで知識を付加した意味の形式表現を作成する。非構造化言語モデルと形式的意味構造とのギャップを埋めることで、自然言語理解と推論における複雑な問題に対処するための新たな道を開く。
論文参考訳（メタデータ） (2024-11-19T17:23:55Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文参考訳（メタデータ） (2022-01-14T14:54:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。