論文の概要: Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
- arxiv url: http://arxiv.org/abs/2602.05547v1
- Date: Thu, 05 Feb 2026 11:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.89924
- Title: Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
- Title(参考訳): Multi-Task GRPO: タスク間の信頼性の高いLLM推論
- Authors: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic,
- Abstract要約: GRPOを用いたRLベースのポストトレーニングは、個々の推論タスクにおいて大きな言語モデルを改善するために広く利用されている。
GRPOの単純なマルチタスク適応は、しばしば不均衡な結果をもたらす。
本稿では,タスク重みを動的に適応させ,最悪のタスク性能を最適化する新しいマルチタスクGRPOアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.1364048858487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.
- Abstract(参考訳): GRPOを用いたRLベースのポストトレーニングは、個々の推論タスクにおいて大きな言語モデルを改善するために広く利用されている。
しかし、現実世界のデプロイメントには、さまざまなタスクにまたがって信頼性の高いパフォーマンスが必要である。
GRPOの単純なマルチタスク適応は、しばしば不均衡な結果をもたらし、いくつかのタスクは最適化を支配し、他のタスクは停滞する。
さらに、タスクは、最適化信号に対するそれらの効果的な寄与をさらに歪ませるゼロ・アドバンテージ(したがってゼロ・グラデーション)を得る頻度において、大きく変化する。
これらの問題に対処するために,我々はMT-GRPO (Multi-Task GRPO) アルゴリズムを提案する。
(i)タスクウェイトを動的に適応し、最悪のタスクパフォーマンスを明示的に最適化し、タスク間のバランスのとれた進捗を促進する。
(II) タスクワイド政策勾配が適応重みを反映することを保証するために, 比保存型サンプリング装置を導入する。
3タスクと9タスクの両方の実験では、MT-GRPOは最低タスク精度でベースラインを一貫して上回っている。
特に、MT-GRPOは、競争平均精度を維持しながら、標準GRPOとDAPOよりも16~28%、最低タスク性能が6%向上した。
さらに、MT-GRPOは3タスク設定で50%最悪のタスク精度に達するためのトレーニングステップを50%削減する必要がある。
関連論文リスト
- BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning [15.393743659727926]
大規模言語モデル(LLM)は、知識獲得、推論、ツール使用において顕著な能力を示した。
本稿では,マルチターンタスク計画を単一ターンタスク推論問題に変換する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-09-24T23:47:36Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models [23.50705152648991]
マルチタスク学習(MTL)は,大規模言語モデル(LLM)の微調整に有効である
LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。
本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
論文 参考訳(メタデータ) (2024-10-09T10:20:32Z) - Multitask Learning Can Improve Worst-Group Outcomes [76.92646345152788]
マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。
我々は,共同マルチタスク表現空間を正規化することにより,標準MTLを変更することを提案する。
正規化MTLアプローチは,平均群と最低群の両方でJTTを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-05T21:38:24Z) - Equitable Multi-task Learning [18.65048321820911]
マルチタスク学習(MTL)は、CV、NLP、IRといった様々な研究領域で大きな成功を収めている。
本稿では,EMTLという新しいマルチタスク最適化手法を提案する。
本手法は,2つの研究領域の公開ベンチマークデータセットにおいて,最先端の手法よりも安定して性能を向上する。
論文 参考訳(メタデータ) (2023-06-15T03:37:23Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。