論文の概要: Imbalanced Gradients in RL Post-Training of Multi-Task LLMs
- arxiv url: http://arxiv.org/abs/2510.19178v2
- Date: Sun, 26 Oct 2025 15:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.605121
- Title: Imbalanced Gradients in RL Post-Training of Multi-Task LLMs
- Title(参考訳): マルチタスクLDMのRL後処理における不均衡勾配
- Authors: Runzhe Wu, Ankur Samanta, Ayush Jain, Scott Fujimoto, Jeongyeol Kwon, Ben Kretzu, Youliang Yu, Kaveh Hassani, Boris Vidolov, Yonathan Efroni,
- Abstract要約: 大規模言語モデルのマルチタスク後トレーニングは、通常、異なるタスクからデータセットを混合し、それらを共同で最適化することで実行される。
本稿では,この仮定がRL後の学習において失敗することを示す。
大規模な段階的なタスクは、小規模段階のタスクと同じような、あるいははるかに低い学習ゲインを達成することができる。
- 参考スコア(独自算出の注目度): 28.84335873832795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task post-training of large language models (LLMs) is typically performed by mixing datasets from different tasks and optimizing them jointly. This approach implicitly assumes that all tasks contribute gradients of similar magnitudes; when this assumption fails, optimization becomes biased toward large-gradient tasks. In this paper, however, we show that this assumption fails in RL post-training: certain tasks produce significantly larger gradients, thus biasing updates toward those tasks. Such gradient imbalance would be justified only if larger gradients implied larger learning gains on the tasks (i.e., larger performance improvements) -- but we find this is not true. Large-gradient tasks can achieve similar or even much lower learning gains than small-gradient ones. Further analyses reveal that these gradient imbalances cannot be explained by typical training statistics such as training rewards or advantages, suggesting that they arise from the inherent differences between tasks. This cautions against naive dataset mixing and calls for future work on principled gradient-level corrections for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のマルチタスク後トレーニングは、通常、異なるタスクからデータセットを混合し、それらを共同で最適化することで行われる。
このアプローチは、全てのタスクが同様の大きさの勾配に寄与すると暗黙的に仮定し、この仮定が失敗すると、最適化は大きな段階的なタスクに偏っている。
しかし,本論文では,この仮定がRL後の学習において失敗することを示す。
このような勾配の不均衡が正当化されるのは、より大きな勾配がタスクでより大きな学習の得(すなわち、より大きなパフォーマンス改善)を示唆している場合に限られる。
大規模な段階的なタスクは、小規模段階のタスクと同じような、あるいははるかに低い学習ゲインを達成することができる。
さらに分析したところ、これらの勾配不均衡は、トレーニング報酬やアドバンテージのような典型的なトレーニング統計では説明できないことが判明し、それらがタスク間の固有の差異から生じることを示唆している。
このことは、単純なデータセットの混合に対して警告し、LCMの原理的な勾配レベルの補正に関する今後の研究を要求する。
関連論文リスト
- Gradient Similarity Surgery in Multi-Task Deep Learning [1.2299544525529198]
本研究は、最適化過程を導くために、勾配等級類似度尺度に基づく新しい勾配手術法を導入する。
similarity-Aware Momentum Gradient Surgery (SAM-GS) は1次運動量の勾配等化と変調を採用する。
論文 参考訳(メタデータ) (2025-06-06T14:40:50Z) - Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning [39.4348419684885]
マルチタスク学習(MTL)は、複数のタスクを効率的に解決する単一のモデルを学習することを目的としている。
ベイジアン推論を用いた新しい勾配集約手法を提案する。
さまざまなデータセットで,アプローチのメリットを実証的に実証しています。
論文 参考訳(メタデータ) (2024-02-06T14:00:43Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Mitigating Negative Transfer in Multi-Task Learning with Exponential
Moving Average Loss Weighting Strategies [0.981328290471248]
MTL(Multi-Task Learning)は、ディープラーニングへの関心が高まっている分野である。
特定のタスクがトレーニングを支配し、他のタスクのパフォーマンスを損なう可能性があるため、MTLは実用的ではない。
指数移動平均によるスケーリングに基づく損失分散手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T09:22:48Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - SLAW: Scaled Loss Approximate Weighting for Efficient Multi-Task
Learning [0.0]
マルチタスク学習(MTL)は、機械学習のサブフィールドであり、重要な応用がある。
最適MTL最適化法は、各タスクの損失関数の勾配を個別に計算する必要がある。
マルチタスク最適化手法であるScaled Loss Approximate Weighting (SLAW)を提案する。
論文 参考訳(メタデータ) (2021-09-16T20:58:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。