論文の概要: To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12566v1
- Date: Fri, 13 Feb 2026 03:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.830438
- Title: To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
- Title(参考訳): To Mix or To Merge:大規模言語モデルのためのマルチドメイン強化学習を目指して
- Authors: Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の明示的推論能力を刺激する上で重要な役割を果たしている。
我々は、オープンソースのデータセットを用いて、広範囲な質的、定量的な実験を設計する。
ドメイン間のRLVRは相互干渉がほとんどなく、推論集約ドメインは相互相乗効果を示す。
- 参考スコア(独自算出の注目度): 36.65680320664014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, and instruction following) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, model prediction behavior, and information constraints. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/mosAI25/M2RL
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の明確な推論能力を刺激する上で重要な役割を担う。
プログラミングや数学など、RLVRを通じて特定の領域で専門家レベルのパフォーマンスを実現することができる。
一般のマルチドメインの専門家レベルモデルが必要な場合には、RLVRの異なるドメイン間でのコラボレーションを慎重に検討する必要がある。
現在の最先端モデルは、主にマルチドメインRLVRのための2つの異なるトレーニングパラダイム、Multi-task RLVRとRLVRを混合し、モデルマージする。
しかし、ほとんどの研究はこれらのパラダイムに関する詳細な比較と分析を提供していなかった。
この目的のために、ターゲットドメインとして複数の一般的な高レベルタスク(例えば、数学、コーディング、科学、命令従)を選択し、オープンソースのデータセットを使用して、広範囲な定性的かつ定量的な実験を設計する。
ドメイン間のRLVRは相互干渉がほとんどなく、推論集約ドメインは相互相乗効果を示す。
さらに、重み空間幾何学、モデル予測行動、情報制約の観点から、相互利得の内部メカニズムを解析する。
このプロジェクトはM2RLと名付けられ、M2RLはM2RL(Mixed Multi-task Training)、Merging for Reinforcement Learning(Merging for Reinforcement Learning)、ホームページはhttps://github.com/mosAI25/M2RLにある。
関連論文リスト
- Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - Diffusion Models for Reinforcement Learning: Foundations, Taxonomy, and Development [32.14985932997508]
拡散モデル(DM)は強化学習(RL)の重要な利点を提供する
このサーベイは拡散に基づくRLの包括的かつ最新の合成を提供する。
論文 参考訳(メタデータ) (2025-10-14T08:03:46Z) - MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning [37.71233459623324]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)のポストトレーニングのための強力なパラダイムとして登場した。
RLVRをMultimodal LLM(MLLMs)に適用することは大きなチャンスであるが、視覚言語タスクの広範で異質な性質により複雑である。
本稿では、厳密なデータ混合問題定式化とベンチマーク実装を備えたマルチモーダルLLM RLVRのための体系的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:59:38Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。