論文の概要: MuSLR: Multimodal Symbolic Logical Reasoning
- arxiv url: http://arxiv.org/abs/2509.25851v1
- Date: Tue, 30 Sep 2025 06:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.047247
- Title: MuSLR: Multimodal Symbolic Logical Reasoning
- Title(参考訳): MuSLR:マルチモーダルシンボリック論理推論
- Authors: Jundong Xu, Hao Fei, Yuhui Zhang, Liangming Pan, Qijun Huang, Qian Liu, Preslav Nakov, Min-Yen Kan, William Yang Wang, Mong-Li Lee, Wynne Hsu,
- Abstract要約: マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。
形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。
我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
- 参考スコア(独自算出の注目度): 133.85551954182105
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal symbolic logical reasoning, which aims to deduce new facts from multimodal input via formal logic, is critical in high-stakes applications such as autonomous driving and medical diagnosis, as its rigorous, deterministic reasoning helps prevent serious consequences. To evaluate such capabilities of current state-of-the-art vision language models (VLMs), we introduce the first benchmark MuSLR for multimodal symbolic logical reasoning grounded in formal logical rules. MuSLR comprises 1,093 instances across 7 domains, including 35 atomic symbolic logic and 976 logical combinations, with reasoning depths ranging from 2 to 9. We evaluate 7 state-of-the-art VLMs on MuSLR and find that they all struggle with multimodal symbolic reasoning, with the best model, GPT-4.1, achieving only 46.8%. Thus, we propose LogiCAM, a modular framework that applies formal logical rules to multimodal inputs, boosting GPT-4.1's Chain-of-Thought performance by 14.13%, and delivering even larger gains on complex logics such as first-order logic. We also conduct a comprehensive error analysis, showing that around 70% of failures stem from logical misalignment between modalities, offering key insights to guide future improvements. All data and code are publicly available at https://llm-symbol.github.io/MuSLR.
- Abstract(参考訳): 形式論理による多モーダル入力から新たな事実を導出することを目的とした多モーダル記号論理推論は、厳密で決定論的推論が深刻な結果の防止に役立つため、自律運転や医療診断などの高度な応用において重要である。
現状の視覚言語モデル (VLM) の機能を評価するため, 形式論理規則に基づく多モーダル記号論理推論のための最初のベンチマーク MuSLR を導入する。
MuSLRは、35の原子記号論理と976の論理結合を含む7つのドメインにわたる1,093のインスタンスから構成されており、推論深度は2から9である。
我々は MuSLR 上での7つの最先端 VLM の評価を行い、それらがすべて多モーダルなシンボリック推論に苦しむことを発見し、最良のモデル GPT-4.1 は 46.8% しか達成していない。
そこで我々は,マルチモーダル入力に形式論理規則を適用し,GPT-4.1のChain-of-Thought性能を14.13%向上させ,一階述語論理のような複雑な論理にさらに大きな利益をもたらすモジュール型フレームワークLogiCAMを提案する。
また、全体的なエラー分析を行い、約70%の障害は、モダリティ間の論理的ミスアライメントに起因することを示し、将来の改善を導く上で重要な洞察を提供する。
すべてのデータとコードはhttps://llm-symbol.github.io/MuSLRで公開されている。
関連論文リスト
- From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models [58.456656119178064]
VLM(Vision-Language Models)は、マルチモーダルインテリジェンスの基礎として登場した。
しかし、その論理的理解能力は依然として明らかに過小評価されている。
LogicBenchは9つの論理カテゴリと4つの多様なシナリオにまたがる5万以上の視覚言語ペアを備えたベンチマークである。
VLMの論理感度を高めるためのトレーニングフレームワークであるLogicCLIPを提案する。
論文 参考訳(メタデータ) (2025-08-15T08:40:13Z) - Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus [13.276829763453433]
大規模言語モデル(LLM)は幅広いタスクを解くことができるが、推論に苦戦している。
本稿では,プログラム生成論理推論サンプルを用いてLLMの推論能力を高めることを目的として,$textbfAdditional Logic Training (ALT)$を提案する。
論文 参考訳(メタデータ) (2024-11-19T13:31:53Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。