論文の概要: Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2507.07424v1
- Date: Thu, 10 Jul 2025 04:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.277272
- Title: Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
- Title(参考訳): Corvid: マルチモーダルな大規模言語モデルの改善
- Authors: Jingjing Jiang, Chao Ma, Xurui Song, Hanwang Zhang, Jun Luo,
- Abstract要約: 我々は、CoT推論機能を強化したMLLMであるCorvidを紹介する。
CorvidのCoT推論機能を強化するために,高品質なマルチモーダルCoT命令追従データセットであるMCoT-Instruct-287Kを導入する。
我々は,Corvidが過剰な推論とアンダー推論を緩和できる効果的な推論時間スケーリング戦略を提案する。
- 参考スコア(独自算出の注目度): 51.867949053263466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have demonstrated exceptional performance in multimodal perception and understanding. However, leading open-source MLLMs exhibit significant limitations in complex and structured reasoning, particularly in tasks requiring deep reasoning for decision-making and problem-solving. In this work, we present Corvid, an MLLM with enhanced chain-of-thought (CoT) reasoning capabilities. Architecturally, Corvid incorporates a hybrid vision encoder for informative visual representation and a meticulously designed connector (GateMixer) to facilitate cross-modal alignment. To enhance Corvid's CoT reasoning capabilities, we introduce MCoT-Instruct-287K, a high-quality multimodal CoT instruction-following dataset, refined and standardized from diverse public reasoning sources. Leveraging this dataset, we fine-tune Corvid with a two-stage CoT-formatted training approach to progressively enhance its step-by-step reasoning abilities. Furthermore, we propose an effective inference-time scaling strategy that enables Corvid to mitigate over-reasoning and under-reasoning through self-verification. Extensive experiments demonstrate that Corvid outperforms existing o1-like MLLMs and state-of-the-art MLLMs with similar parameter scales, with notable strengths in mathematical reasoning and science problem-solving. Project page: https://mm-vl.github.io/corvid.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)の最近の進歩は、マルチモーダル認識と理解において、例外的な性能を示している。
しかし、オープンソースのMLLMは、特に意思決定や問題解決の深い推論を必要とするタスクにおいて、複雑で構造化された推論に重大な制限がある。
本稿では,CoT推論能力の強化したMLLMであるCorvidを紹介する。
アーキテクチャ的には、情報的視覚表現のためのハイブリッドビジョンエンコーダと、クロスモーダルアライメントを容易にするために巧妙に設計されたコネクタ(GateMixer)が組み込まれている。
Corvid の CoT 推論機能を強化するため,様々な公開推論ソースから改良,標準化された高品質マルチモーダル CoT 命令追従データセット MCoT-Instruct-287K を導入する。
このデータセットを活用することで、CoT形式の2段階のトレーニングアプローチを微調整して、ステップバイステップの推論能力を段階的に向上します。
さらに,Corvidが自己検証を通じて過剰な推論とアンダー推論を緩和できる効果的な推論時間スケーリング戦略を提案する。
大規模な実験により、コービッドは既存のo1-like MLLMや最先端のMLLMを同様のパラメータスケールで上回り、数学的推論や科学的な問題解決において顕著な強みを持つことを示した。
プロジェクトページ: https://mm-vl.github.io/corvid.com
関連論文リスト
- Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought [11.538345159297839]
チェーン・オブ・シンクレット(CoT)プロンプトは、多モーダル推論を強化するために、大きな視覚言語モデル(LLM)に適応している。
既存のLVLMは、CoT推論において生成された有理性の内容を無視していることが多い。
本稿では,新しいプラグイン・アンド・プレイ型推論時間復号法である理性強化復号法(RED)を提案する。
論文 参考訳(メタデータ) (2025-07-10T12:07:13Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [33.170426237654596]
VIDEORFTは、MLLMで人間のようなビデオ推論能力を育むための新しいアプローチである。
RFTの標準的な2段階のスキームに従う: チェーン・オブ・シント(CoT)アノテーションによる微調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。