論文の概要: MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis
- arxiv url: http://arxiv.org/abs/2508.08275v2
- Date: Wed, 13 Aug 2025 07:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.554916
- Title: MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis
- Title(参考訳): MLLM-CBench:Chain-of-Thought Reasoning解析を用いたマルチモーダルLDMの連続的指導チューニングのための総合ベンチマーク
- Authors: Haiyun Guo, ZhiYan Hou, Yu Chen, Jinghan He, Yandu Sun, Yuzhe Zhou, Shujing Guo, Kuan Zhu, Jinqiao Wang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、動的実世界の要求に適応するために、訓練後のフェーズで連続的な命令チューニングを必要とする。
textbfMLLM-CTBenchは、6つの異なるドメインから7つの課題を3つのコントリビューションでキュレートしたデータセットである。
- 参考スコア(独自算出の注目度): 21.091157331212493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) require continual instruction tuning during their post-training phase to adapt to the dynamic real-world demands. However, the absence of rigorous and systematic benchmarks has hindered progress in this area. To bridge this gap, we introduce \textbf{MLLM-CTBench}, a dataset curating seven challenging tasks from six diverse domains with three contributions. First,to enable fine-grained analysis of continual learning ability, we introduce \textbf{multidimensional evaluation metrics}, which combines final answer accuracy with Chain-of-Thought (CoT) reasoning quality assessment through a carefully trained MLLM evaluator. Then, we conduct a \textbf{comprehensive evaluation of continual learning algorithms}, systematically assessing eight algorithms from four major categories to provide actionable insights for algorithm design and adoption. Finally ,we evaluate the efficacy of \textbf{Reinforcement Fine-tuning (RFT) versus Supervised Fine-tuning (SFT)} in maintaining model performance across sequential tasks during continual instruction tuning. Our experiments demonstrate that reasoning processes in MLLMs exhibit greater resilience than final outputs to forgetting during continual learning, aligning with cognitive theories of hierarchical forgetting. We further show that both model capability and task sequence significantly influence continual learning outcomes, with stronger baseline models exhibiting greater resistance to forgetting. Notably, properly regularized RFT emerges as a more robust approach than SFT for maintaining performance across tasks.One of the key contributing factors is KL-divergence regularization, without which RFT leads to even worse forgetting than SFT on old tasks though may perform better on new tasks.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、動的実世界の要求に適応するために、訓練後のフェーズで連続的な命令チューニングを必要とする。
しかし、厳密で体系的なベンチマークが欠如しているため、この分野の進歩は妨げられている。
このギャップを埋めるために、我々は6つの異なるドメインから7つの挑戦的なタスクを3つのコントリビューションでキュレートしたデータセットである \textbf{MLLM-CTBench} を紹介した。
まず、連続学習能力のきめ細かい分析を可能にするために、最終回答精度と、慎重に訓練されたMLLM評価器を用いて、CoT(Chain-of-Thought)推論品質評価を組み合わせた‘textbf{multidimensional evaluation metrics’を導入する。
そこで我々は,4つの主要なカテゴリから8つのアルゴリズムを体系的に評価し,アルゴリズム設計と導入のための実用的な洞察を提供する,連続学習アルゴリズムの「textbf{comprehensive Evaluation」を行う。
最後に,連続的な調律中の逐次的タスクにおけるモデル性能を維持するために, RFT(textbf{Reinforcement Fine-tuning)とSFT(Supervised Fine-tuning)の有効性を評価する。
実験により,MLLMにおける推論過程は,連続学習における記憶に対する最終的な出力よりも高いレジリエンスを示し,階層的忘れの認知理論と整合性を示した。
さらに、モデル能力とタスクシーケンスが連続的な学習結果に大きく影響し、ベースラインモデルがより強力なベースラインモデルにより、忘れることへの抵抗が強くなることを示す。
特に、タスク間のパフォーマンスを維持するために、適切に正規化されたRFTは、SFTよりも堅牢なアプローチとして登場し、重要な要因の1つは、KL分割正規化であり、RFTは、新しいタスクにおいてより優れた性能を発揮するが、古いタスクにおいてSFTよりもさらにひどい忘れを生じさせる。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [23.99424961055015]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。