論文の概要: MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification
- arxiv url: http://arxiv.org/abs/2502.13383v1
- Date: Wed, 19 Feb 2025 02:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:02.882783
- Title: MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification
- Title(参考訳): MM-Verify:Chain-of-Thoughtによるマルチモーダル推論の強化
- Authors: Linzhuang Sun, Hao Liang, Jingxuan Wei, Bihui Yu, Tianpeng Li, Fan Yang, Zenan Zhou, Wentao Zhang,
- Abstract要約: MM-VerifierとMM-Reasonerを導入し、より長い推論とより堅牢な検証を通じてマルチモーダル推論を強化する。
MM-ReasonerとMM-Verifierを組み合わせた場合,MathVistaで65.3の精度を実現する。
- 参考スコア(独自算出の注目度): 20.071520400080022
- License:
- Abstract: According to the Test-Time Scaling, the integration of External Slow-Thinking with the Verify mechanism has been demonstrated to enhance multi-round reasoning in large language models (LLMs). However, in the multimodal (MM) domain, there is still a lack of a strong MM-Verifier. In this paper, we introduce MM-Verifier and MM-Reasoner to enhance multimodal reasoning through longer inference and more robust verification. First, we propose a two-step MM verification data synthesis method, which combines a simulation-based tree search with verification and uses rejection sampling to generate high-quality Chain-of-Thought (COT) data. This data is then used to fine-tune the verification model, MM-Verifier. Additionally, we present a more efficient method for synthesizing MMCOT data, bridging the gap between text-based and multimodal reasoning. The synthesized data is used to fine-tune MM-Reasoner. Our MM-Verifier outperforms all larger models on the MathCheck, MathVista, and MathVerse benchmarks. Moreover, MM-Reasoner demonstrates strong effectiveness and scalability, with performance improving as data size increases. Finally, our approach achieves strong performance when combining MM-Reasoner and MM-Verifier, reaching an accuracy of 65.3 on MathVista, surpassing GPT-4o (63.8) with 12 rollouts.
- Abstract(参考訳): Test-Time Scalingによると、外部スローシンキングとVerifyメカニズムの統合は、大規模言語モデル(LLM)におけるマルチラウンド推論を強化するために実証されている。
しかし、マルチモーダル(MM)領域では、強力なMM検証器がない。
本稿では,MM-VerifierとMM-Reasonerを導入し,より長い推論とより堅牢な検証を通じてマルチモーダル推論を強化する。
まず,シミュレーションに基づく木探索と検証を組み合わせた2段階のMM検証データ合成手法を提案する。
このデータは、検証モデルMM-Verifierの微調整に使用される。
さらに,テキストベースとマルチモーダル推論のギャップを埋めて,MCCOTデータのより効率的な合成法を提案する。
合成データはMM-Reasonerの微調整に使用される。
私たちのMM-Verifierは、MathCheck、MathVista、MathVerseベンチマークのすべての大きなモデルより優れています。
さらに、MM-Reasonerは、データサイズの増加に伴ってパフォーマンスが向上し、強力な効率性とスケーラビリティを示す。
最後に,MM-ReasonerとMM-Verifierを組み合わせることで,GPT-4o (63.8)を12ロールアウトで上回り,MathVistaで65.3の精度を達成した。
関連論文リスト
- MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [25.308196207219613]
CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。
本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:49:41Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z) - UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - End-to-End Multi-Object Detection with a Regularized Mixture Model [26.19278003378703]
近年のエンド・ツー・エンド多目的検出器は手作りのプロセスを取り除き、推論パイプラインを単純化している。
本稿では,NLL(負対数類似度)と正規化項(正則化項)の2項のみからなるエンドツーエンドの多対象検出器を訓練するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。