論文の概要: Training Multimodal Large Reasoning Models Needs Better Thoughts: A Three-Stage Framework for Long Chain-of-Thought Synthesis and Selection
- arxiv url: http://arxiv.org/abs/2512.18956v1
- Date: Mon, 22 Dec 2025 02:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.576352
- Title: Training Multimodal Large Reasoning Models Needs Better Thoughts: A Three-Stage Framework for Long Chain-of-Thought Synthesis and Selection
- Title(参考訳): より優れた思考を必要とするマルチモーダル大規模推論モデルの訓練--長鎖合成と選択のための3段階フレームワーク
- Authors: Yizhi Wang, Linan Yue, Min-Ling Zhang,
- Abstract要約: 大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通して複雑な推論タスクにおいて顕著な性能を示した。
既存のマルチモーダルデータセットとCoTメソッドは、依然として限定的な推論深さ、モダリティ変換エラー、厳密な生成パイプラインに悩まされている。
マルチモーダル推論タスクに適した高品質なCoTデータを生成するための3段階合成選択フレームワークであるSynSelectを提案する。
- 参考スコア(独自算出の注目度): 64.34737012956182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex reasoning tasks through long Chain-of-Thought (CoT) reasoning. Extending these successes to multimodal reasoning remains challenging due to the increased complexity of integrating diverse input modalities and the scarcity of high-quality long CoT training data. Existing multimodal datasets and CoT synthesis methods still suffer from limited reasoning depth, modality conversion errors, and rigid generation pipelines, hindering model performance and stability. To this end, in this paper, we propose SynSelect, a novel three-stage Synthesis-Selection framework for generating high-quality long CoT data tailored to multimodal reasoning tasks. Specifically, SynSelect first leverages multiple heterogeneous multimodal LRMs to produce diverse candidate CoTs, and then applies both instance and batch level selection to filter high-quality CoTs that can effectively enhance the model's reasoning capabilities. Extensive experiments on multiple multimodal benchmarks demonstrate that models supervised fine-tuned on SynSelect-generated data significantly outperform baselines and achieve further improvements after reinforcement learning post-training. Our results validate SynSelect as an effective approach for advancing multimodal LRMs reasoning capabilities.
- Abstract(参考訳): 大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通して複雑な推論タスクにおいて顕著な性能を示した。
これらの成功をマルチモーダル推論に拡張することは、多様な入力モダリティを統合する複雑さの増大と、高品質なCoTトレーニングデータの不足により、依然として困難である。
既存のマルチモーダルデータセットとCoT合成手法は、依然として限定的な推論深度、モダリティ変換誤差、厳密な生成パイプラインに悩まされており、モデルの性能と安定性を妨げている。
そこで本稿では,マルチモーダル推論タスクに適した高品質なCoTデータを生成するための3段階合成-選択フレームワークであるSynSelectを提案する。
具体的には、SynSelect はまず複数の異種多モード LRM を利用して様々な候補 CoT を生成し、続いてインスタンスレベルの選択とバッチレベルの選択を適用して高品質 CoT をフィルタリングし、モデルの推論能力を効果的に向上させる。
複数のマルチモーダルベンチマークによる大規模な実験により、SynSelect生成データに基づいて微調整されたモデルがベースラインを著しく上回り、強化学習後トレーニング後のさらなる改善が達成された。
以上の結果から,SynSelectはマルチモーダルLEMの推論能力向上に有効な手法である可能性が示唆された。
関連論文リスト
- Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation [22.722731231389393]
最近のアプローチは、主にパラメータ重(マルチモーダル)大規模言語モデル(LLM)の知識と推論能力を活用する。
本稿では,資源制限環境における配置制約に対処するマルチモーダル・チェーン・オブ・スチューデント・推論蒸留モデル MulCoT-RD を提案する。
4つのデータセットの実験により、3Bパラメータのみを持つMulCoT-RDは、堅牢な一般化と拡張された解釈可能性を示しながら、JMSRC上での強い性能を実現することが示された。
論文 参考訳(メタデータ) (2025-08-07T10:23:14Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.60823802317141]
我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:27:57Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - LATTE: Learning to Think with Vision Specialists [110.43838069105998]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。