論文の概要: MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.24871v1
- Date: Fri, 30 May 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.130257
- Title: MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
- Title(参考訳): MoDoMoDo:マルチモーダルLLM強化学習のためのマルチドメインデータ混合
- Authors: Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)のポストトレーニングのための強力なパラダイムとして登場した。
RLVRをMultimodal LLM(MLLMs)に適用することは大きなチャンスであるが、視覚言語タスクの広範で異質な性質により複雑である。
本稿では、厳密なデータ混合問題定式化とベンチマーク実装を備えたマルチモーダルLLM RLVRのための体系的な後学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.71233459623324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1) We developed a multimodal RLVR framework for multi-dataset post-training by curating a dataset that contains different verifiable vision-language problems and enabling multi-domain online RL learning with different verifiable rewards; (2) We proposed a data mixture strategy that learns to predict the RL fine-tuning outcome from the data mixture distribution, and consequently optimizes the best mixture. Comprehensive experiments showcase that multi-domain RLVR training, when combined with mixture prediction strategies, can significantly boost MLLM general reasoning capacities. Our best mixture improves the post-trained model's accuracy on out-of-distribution benchmarks by an average of 5.24% compared to the same model post-trained with uniform data mixture, and by a total of 20.74% compared to the pre-finetuning baseline.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、構造化された検証可能な回答を持つタスクで最先端のパフォーマンスを達成する、大規模言語モデル(LLM)の訓練後の強力なパラダイムとして最近登場した。
RLVRをMultimodal LLMs(MLLMs)に適用することは大きなチャンスであるが、視覚的、論理的、空間的能力を必要とする視覚言語タスクの広範で異質な性質により複雑である。
したがって、複数のデータセット上でRLVRを使用してMLLMをトレーニングすることは有益であるが、多種多様なデータセット間の相互作用による目的の相反による課題を生じさせ、一般化と推論を改善するための最適なデータセット混合戦略の必要性を強調している。
本稿では、厳密なデータ混合問題定式化とベンチマーク実装を特徴とするマルチモーダルLLM RLVRのための体系的な後学習フレームワークを提案する。
具体的には、(1)異なる検証可能な視覚言語問題を含むデータセットをキュレートし、異なる検証可能な報酬でマルチドメインオンラインRL学習を可能にするマルチモーダル・RLVRフレームワークを開発し、(2)データ混合分布からRLの微調整結果を予測することを学習し、最良の混合を最適化するデータ混合戦略を提案した。
総合的な実験により、マルチドメインRLVRトレーニングと混合予測戦略を組み合わせると、MLLMの一般的な推論能力が著しく向上することが示された。
最適混合法は, 単調データ混合モデルと比較すると, 平均5.24%, 最大20.74%の精度で, 単調データ混合モデルに比べ, 平均5.24%の精度向上を実現した。
関連論文リスト
- IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。
複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。
混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T06:42:44Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [34.6322241916799]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - GME: Improving Universal Multimodal Retrieval by Multimodal LLMs [43.457928045291915]
Universal Multimodal Retrieval (UMR) は、統一モデルを用いて様々なモダリティを探索することを目的としている。
これまで、テキストデータのみを用いてUMRを実現するためにMLLM(Multimodal large language model)を採用してきた。
論文 参考訳(メタデータ) (2024-12-22T04:40:24Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。