論文の概要: Advancing General-Purpose Reasoning Models with Modular Gradient Surgery
- arxiv url: http://arxiv.org/abs/2602.02301v1
- Date: Mon, 02 Feb 2026 16:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.296629
- Title: Advancing General-Purpose Reasoning Models with Modular Gradient Surgery
- Title(参考訳): モジュラーグラディエント手術による汎用推論モデルの改善
- Authors: Min Cai, Yu Liang, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Xi Ye, Daiting Shi,
- Abstract要約: 変換器内のモジュールレベルでの勾配競合を解消する**M**正則**G**radient **S**urgery (**MGS**)を導入する。
MGS は標準マルチタスク RL よりも平均4.3 (16.6%) と4.5 (11.1%) の改善を実現している。
- 参考スコア(独自算出の注目度): 24.11155357898868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has played a central role in recent advances in large reasoning models (LRMs), yielding strong gains in verifiable and open-ended reasoning. However, training a single general-purpose LRM across diverse domains remains challenging due to pronounced domain heterogeneity. Through a systematic study of two widely used strategies, Sequential RL and Mixed RL, we find that both incur substantial cross-domain interference at the behavioral and gradient levels, resulting in limited overall gains. To address these challenges, we introduce **M**odular **G**radient **S**urgery (**MGS**), which resolves gradient conflicts at the module level within the transformer. When applied to Llama and Qwen models, MGS achieves average improvements of 4.3 (16.6\%) and 4.5 (11.1\%) points, respectively, over standard multi-task RL across three representative domains (math, general chat, and instruction following). Further analysis demonstrates that MGS remains effective under prolonged training. Overall, our study clarifies the sources of interference in multi-domain RL and presents an effective solution for training general-purpose LRMs.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模推論モデル(LRM)における近年の進歩において中心的な役割を担っており, 検証およびオープンエンド推論において強い利益を得ている。
しかし、ドメインの不均一性の顕著さのため、多様なドメインにまたがる単一の汎用LEMのトレーニングは難しいままである。
シークエンシャル・RLとミックス・RLという2つの広く利用されている戦略の体系的研究を通して、動作レベルと勾配レベルのドメイン間干渉が生じ、結果として全体の利得が制限されることがわかった。
これらの課題に対処するために、変換器内のモジュールレベルでの勾配競合を解決する**M**正則**G**進**S*求解(**MGS**)を導入する。
Llama と Qwen モデルに適用すると、MGS は3つの代表的なドメイン(マス、一般的なチャット、命令従)にわたる標準マルチタスク RL よりも平均 4.3 (16.6\%) と 4.5 (11.1\%) の改善を達成している。
さらなる分析により、MGSは長期訓練中も有効であることが示されている。
本研究は,マルチドメインRLにおける干渉源を明らかにするとともに,汎用LEMのトレーニングに有効なソリューションを提案する。
関連論文リスト
- Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - UR$^2$: Unify RAG and Reasoning through Reinforcement Learning [17.319590573147565]
大規模言語モデル(LLM)は2つの相補的パラダイムを通じて顕著な能力を示してきた: 検索-拡張生成(RAG)と、検証リワード(RLVR)からの強化学習(Reinforcement Learning)である。
我々は、強化学習による検索と推論を統一する一般的なフレームワークUR2(Unified RAG and Reasoning)を提案する。
オープンドメインQA、MMLU-Pro、医学、数学的推論タスクにわたる実験は、UR$2$が既存のRAG法とRL法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-08-08T09:33:20Z) - RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling [25.12721060984898]
ルールに基づく推論は、推論における根本的な問題の1つとして認識されている。
本稿ではルールベースの推論を行うシンプルな方法であるReinforced Rule-based Reasoning、すなわち RuleReasonerを紹介する。
具体的には、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、Re RuleReasonerは各トレーニングバッチを再サンプリングする。
論文 参考訳(メタデータ) (2025-06-10T10:31:21Z) - Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。
得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文 参考訳(メタデータ) (2025-05-28T17:59:37Z) - DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management [18.953750405635393]
Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。
我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
論文 参考訳(メタデータ) (2025-05-19T10:44:49Z) - Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2023-10-10T09:25:44Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。