論文の概要: Empowering Lightweight MLLMs with Reasoning via Long CoT SFT
- arxiv url: http://arxiv.org/abs/2509.03321v1
- Date: Wed, 03 Sep 2025 13:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.537782
- Title: Empowering Lightweight MLLMs with Reasoning via Long CoT SFT
- Title(参考訳): 長尺CoT SFTによる共振を用いた軽量MLLMの高性能化
- Authors: Linyu Ou,
- Abstract要約: 本稿では,軽量マルチモーダル言語モデル(MLLM)の推論能力向上における長鎖(ロングCoT)データの役割について検討する。
以上の結果から,長いCoTデータを持つSFT(Supervised Fine-Tuning)はMLLM推論を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning with Verifiable Rewards has enhanced the reasoning of large-scale language models (LLMs), its efficacy for lightweight multimodal language models (MLLMs) with fewer than seven billion parameters remains underexplored. This paper investigates the role of long Chain-of-Thought (long CoT) data in enhancing the reasoning abilities of such MLLMs. Our findings demonstrate that Supervised Fine-Tuning (SFT) with long CoT data significantly improves MLLM reasoning. Furthermore, we observe that after this initial SFT phase, MLLMs can achieve additional performance gains through a subsequent RL stage. We conclude that a SFT stage with long CoT data is a critical prerequisite for developing the reasoning capabilities of lightweight MLLMs.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewardsは、大規模言語モデル(LLMs)の推論を強化する一方で、70億未満のパラメータを持つ軽量マルチモーダル言語モデル(MLLMs)に対する有効性はいまだ検討されていない。
本稿では,MLLMの推論能力向上における長鎖CoTデータの役割について検討する。
以上の結果から,長いCoTデータを持つSFT(Supervised Fine-Tuning)はMLLM推論を大幅に改善することが示された。
さらに、この初期SFTフェーズの後、MLLMはその後のRLステージを通じてさらなる性能向上を達成することができることを観察する。
我々は、軽量MLLMの推論能力を開発する上で、長いCoTデータを持つSFTステージが重要な前提条件であると結論付けている。
関連論文リスト
- What Factors Affect LLMs and RLLMs in Financial Question Answering? [4.42417272193095]
本研究では、金融分野における大規模言語モデル(LLM)と大規模言語モデル(RLLM)に対する様々な手法の影響について検討する。
我々は,5つのLLMと3つのRLLMを用いて,財務質問応答タスクに対するプロンプト手法,エージェントフレームワーク,多言語アライメント手法の効果を評価する。
論文 参考訳(メタデータ) (2025-07-11T06:37:44Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。