論文の概要: MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
- arxiv url: http://arxiv.org/abs/2502.09621v1
- Date: Thu, 13 Feb 2025 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:51:01.551482
- Title: MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
- Title(参考訳): MME-CoT:大規模マルチモーダルモデルにおける品質・ロバスト性・効率のベンチマーク
- Authors: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li,
- Abstract要約: CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
- 参考スコア(独自算出の注目度): 63.23935582919081
- License:
- Abstract: Answering questions with Chain-of-Thought (CoT) has significantly enhanced the reasoning capabilities of Large Language Models (LLMs), yet its impact on Large Multimodal Models (LMMs) still lacks a systematic assessment and in-depth investigation. In this paper, we introduce MME-CoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes. As the first comprehensive study in this area, we propose a thorough evaluation suite incorporating three novel metrics that assess the reasoning quality, robustness, and efficiency at a fine-grained level. Leveraging curated high-quality data and a unique evaluation strategy, we conduct an in-depth analysis of state-of-the-art LMMs, uncovering several key insights: 1) Models with reflection mechanism demonstrate a superior CoT quality, with Kimi k1.5 outperforming GPT-4o and demonstrating the highest quality results; 2) CoT prompting often degrades LMM performance on perception-heavy tasks, suggesting a potentially harmful overthinking behavior; and 3) Although the CoT quality is high, LMMs with reflection exhibit significant inefficiency in both normal response and self-correction phases. We hope MME-CoT serves as a foundation for advancing multimodal reasoning in LMMs. Project Page: https://mmecot.github.io/
- Abstract(参考訳): CoT (Chain-of-Thought) による質問に対する回答は,Large Language Models (LLMs) の推論能力を大幅に向上させたが,Large Multimodal Models (LMMs) への影響はいまだに体系的な評価や詳細な調査を欠いている。
本稿では,数学,科学,OCR,論理学,時空,一般シーンの6分野にまたがる,LMMのCoT推論性能を評価するためのベンチマークであるMME-CoTを紹介する。
この分野における最初の総合的研究として, 微粒なレベルでの推論品質, 堅牢性, 効率を評価する3つの新しい指標を取り入れた, 徹底的な評価スイートを提案する。
キュレートされた高品質なデータとユニークな評価戦略を活用して、最先端のLMMの詳細な分析を行い、いくつかの重要な洞察を明らかにします。
1) 反射機構を有するモデルでは, キミk1.5がGPT-4oを上回り, 最高の品質を示す。
2 CoTプロンプトは、認知度の高いタスクにおいてLMMのパフォーマンスを劣化させ、潜在的に有害な過度な行動を示す。
3) CoT の品質は高いが, 反射型 LMM は正常応答と自己補正の両相において有意な非効率性を示した。
MME-CoTがLMMにおけるマルチモーダル推論の基盤となることを願っている。
Project Page: https://mmecot.github.io/
関連論文リスト
- M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation [12.042804590050089]
多次元マルチエージェント・ディベート(Multidimensional Multi-Agent Debate, M-MAD)は、機械翻訳評価のための体系的LLMベースのマルチエージェントフレームワークである。
その結果,M-MAD は(1) MQM 基準を細粒度評価のための異なる評価次元に分解することにより,顕著な進歩を達成できることが示唆された。
総合的な実験により、M-MADは既存のLCM-as-a-judge法よりも優れているだけでなく、最先端の参照ベースの自動メトリクスと競合することが示された。
論文 参考訳(メタデータ) (2024-12-28T12:11:28Z) - LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。
LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (2024-10-03T17:36:33Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM [83.98966702271576]
本研究の目的は,大規模マルチモダリティモデル(LMM)に対するポイントクラウド品質評価(PCQA)の知識付与の可能性を検討することである。
品質ラベルを微調整段階のテキスト記述に変換することにより、LMMは点雲の2次元投影から品質評価ロジットを導出することができる。
提案手法の有効性を実証し,PCQAへのLMMの新たな統合を実証した。
論文 参考訳(メタデータ) (2024-04-28T14:47:09Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。