論文の概要: MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models
- arxiv url: http://arxiv.org/abs/2512.05530v1
- Date: Fri, 05 Dec 2025 08:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.964367
- Title: MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models
- Title(参考訳): MIND:マルチモーダル大モデルのための多段階独立識別推論フレームワーク
- Authors: Chuang Yu, Jinmiao Zhao, Mingxuan Zhao, Yunpeng Liu, Xiujun Shu, Yuanhao Feng, Bo Wang, Xiangyu Yue,
- Abstract要約: 本稿では,多段階独立識別(MIND)推論フレームワークを提案する。
ヒューマンライクな認知能力を持つMLLMの「Understand -> Rethink -> Correct」を支援するように設計されている。
受動的模倣に基づく推論から活発な差別的推論へのパラダイム進化を達成する。
- 参考スコア(独自算出の注目度): 15.860796863065737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multimodal large language models (MLLMs) have been widely applied to reasoning tasks. However, they suffer from limited multi-rationale semantic modeling, insufficient logical robustness, and are susceptible to misleading interpretations in complex scenarios. Therefore, we propose a Multi-rationale INtegrated Discriminative (MIND) reasoning framework, which is designed to endow MLLMs with human-like cognitive abilities of "Understand -> Rethink -> Correct", and achieves a paradigm evolution from passive imitation-based reasoning to active discriminative reasoning. Specifically, we introduce a Rationale Augmentation and Discrimination (RAD) paradigm, which automatically and efficiently expands existing datasets by generating diverse rationales, providing a unified and extensible data foundation. Meanwhile, we design a Progressive Two-stage Correction Learning (P2CL) strategy. The first phase enhances multi-rationale positive learning, while the second phase enables active logic discrimination and correction. In addition, to mitigate representation entanglement in the multi-rationale semantic space, we propose a Multi-rationale Contrastive Alignment (MCA) optimization strategy, which achieves semantic aggregation of correct reasoning and boundary separation of incorrect reasoning. Extensive experiments demonstrate that the proposed MIND reasoning framework achieves state-of-the-art (SOTA) performance on multiple public datasets covering scientific, commonsense, and mathematical scenarios. It provides a new perspective for advancing MLLMs towards higher levels of cognitive intelligence. Our code is available at https://github.com/YuChuang1205/MIND
- Abstract(参考訳): 近年,多モーダル大規模言語モデル (MLLM) が推論タスクに広く応用されている。
しかし、それらは制限された多段階のセマンティックモデリング、不十分な論理的堅牢性に悩まされ、複雑なシナリオにおける誤解を招く解釈に影響を受けやすい。
そこで本研究では,MLLMに「理解 ->再考 ->正解」の人間的な認知能力を与えるための多段階統合差別的推論フレームワークを提案し,受動的模倣に基づく推論から能動的差別的推論へのパラダイム進化を実現する。
具体的には、Rationale Augmentation and Discrimination(RAD)パラダイムを導入し、多様な合理性を生成することによって既存のデータセットを自動的にかつ効率的に拡張し、統一的で拡張可能なデータ基盤を提供する。
一方,P2CL(Progressive Two-stage Correction Learning)戦略を設計する。
第1のフェーズは多段階のポジティブな学習を強化し、第2のフェーズはアクティブな論理の識別と修正を可能にする。
さらに,マルチリレー意味空間における表現の絡み合いを軽減するために,正しい推論のセマンティックアグリゲーションと誤った推論の境界分離を実現するマルチリレーコントラストアライメント(MCA)最適化戦略を提案する。
大規模な実験により、提案したMIND推論フレームワークは、科学、常識、数学的シナリオをカバーする複数の公開データセット上で、最先端(SOTA)のパフォーマンスを達成することが示された。
MLLMを高いレベルの認知知性へと進めるための新たな視点を提供する。
私たちのコードはhttps://github.com/YuChuang1205/MINDで利用可能です。
関連論文リスト
- From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [28.756240721942138]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
我々は新しいICLパラダイムであるThinking with Nothinking (JointThinking)を提案する。
JointThinkingは、数発のチェーン・オブ・シークレット(CoT)を2回、過半数で上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
Infi-MMRは、マルチモーダル小言語モデルの推論能力を体系的に解放するフレームワークである。
第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。
第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。
第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。
論文 参考訳(メタデータ) (2025-05-29T04:51:56Z) - Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - LogiDynamics: Unraveling the Dynamics of Inductive, Abductive and Deductive Logical Inferences in LLM Reasoning [74.0242521818214]
本稿では,大言語モデル(LLM)におけるインダクティブ(システム1)と帰納的/帰納的(システム2)の推論の比較力学を体系的に検討する。
我々は、制御されたアナログ推論環境、多様度(テキスト、視覚、記号)、難易度、タスク形式(MCQ/フリーテキスト)を利用する。
我々の分析によると、System 2のパイプラインは一般的に、特に視覚的/象徴的なモダリティや難しいタスクにおいて優れており、System 1はテキストやより簡単な問題に対して競争力がある。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。