論文の概要: MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2505.21327v1
- Date: Tue, 27 May 2025 15:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.754157
- Title: MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs
- Title(参考訳): MME推論:MLLMにおける論理推論の総合ベンチマーク
- Authors: Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue,
- Abstract要約: MME-Reasoningは、大規模言語モデル(MLLM)の推論能力を評価するために設計されたベンチマークである。
本評価では,論理的推論能力の総合的評価を受けると,最先端のMLLMの限界が明らかになる。
さらに,「思考モード」や「ルールベースRL」など,推論能力を高めると一般的に信じられているアプローチの詳細な分析を行った。
- 参考スコア(独自算出の注目度): 34.2218892593144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical reasoning is a fundamental aspect of human intelligence and an essential capability for multimodal large language models (MLLMs). Despite the significant advancement in multimodal reasoning, existing benchmarks fail to comprehensively evaluate their reasoning abilities due to the lack of explicit categorization for logical reasoning types and an unclear understanding of reasoning. To address these issues, we introduce MME-Reasoning, a comprehensive benchmark designed to evaluate the reasoning ability of MLLMs, which covers all three types of reasoning (i.e., inductive, deductive, and abductive) in its questions. We carefully curate the data to ensure that each question effectively evaluates reasoning ability rather than perceptual skills or knowledge breadth, and extend the evaluation protocols to cover the evaluation of diverse questions. Our evaluation reveals substantial limitations of state-of-the-art MLLMs when subjected to holistic assessments of logical reasoning capabilities. Even the most advanced MLLMs show limited performance in comprehensive logical reasoning, with notable performance imbalances across reasoning types. In addition, we conducted an in-depth analysis of approaches such as ``thinking mode'' and Rule-based RL, which are commonly believed to enhance reasoning abilities. These findings highlight the critical limitations and performance imbalances of current MLLMs in diverse logical reasoning scenarios, providing comprehensive and systematic insights into the understanding and evaluation of reasoning capabilities.
- Abstract(参考訳): 論理的推論は人間の知性の基本的側面であり、マルチモーダル大言語モデル(MLLM)に不可欠な能力である。
マルチモーダル推論の大幅な進歩にもかかわらず、既存のベンチマークは論理的推論の明確な分類の欠如と推論の明確な理解のため、推論能力の総合評価に失敗している。
これらの問題に対処するために,MLLMの推論能力を評価するための総合的なベンチマークであるMME-Reasoningを導入する。
我々は、各質問が知覚能力や知識の広さよりも推論能力を効果的に評価することを保証するために、データを慎重にキュレートし、多様な質問の評価をカバーするための評価プロトコルを拡張した。
本評価では,論理的推論能力の総合的評価を受けると,最先端のMLLMの限界が明らかになる。
最も先進的なMLLMでさえ、論理的推論では性能が限られており、論理的推論では顕著な性能不均衡がある。
さらに,「思考モード」やルールベースRLなど,推論能力を高めると一般的に信じられているアプローチの詳細な分析を行った。
これらの知見は、様々な論理的推論シナリオにおける現在のMLLMの限界と性能不均衡を強調し、推論能力の理解と評価に関する包括的かつ体系的な洞察を提供する。
関連論文リスト
- Logical Reasoning in Large Language Models: A Survey [17.06712393613964]
大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。
LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。
このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
論文 参考訳(メタデータ) (2025-02-13T09:19:14Z) - Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond [46.75497042978449]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。