FuguReport

Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

著者 Zili Wang, Jiajun Chai, Lin Chen, Xiaohan Wang, Shiming Xiang, Guojun Yin
所属 Meituan / Chinese Academy of Sciences / University of the Chinese Academy of Sciences
カテゴリ Method / Reinforcement Learning / Multi-token prediction training, Method / Optimization / Coefficient calibration via log-prob proxy, Application / Sequential Prediction / Online adaptation in RL training
ライセンス CC BY 4.0

Abstractの概要

本論文では、マルチトークン予測(MTP)が事前学習で有用であるにもかかわらず、事後学習において強化学習(RL)と同時学習させると性能が低下することが多い理由について調査している。著者らは、RL目的関数に対するMTPのステップごとの影響を分析し、それを1次勾配相関項と2次摂動ペナルティ項に分解している。この枠組みを用いて、Detach(デタッチ)、交差エントロピーMTP損失、ポリシー損失ベースの同時学習という3つの手法の挙動を説明し、学習の進行に伴って勾配の整合性が変化するため、固定のMTP重み付けは失敗すると論じている。この分析に基づき、計算コストの高いフル勾配計算の代わりに、対数確率のプロキシを使用してオンラインでMTP係数を適応的に設定する最適係数キャリブレーション(OCC)を提案している。

新規性

主な新規性は、一般的な学習手法を単一の分解式の下で統合し、相関支配的からペナルティ支配的な挙動への相転移を特定する、MTP・RL同時学習の理論的な最適化に基づく説明である。また、計算コストの低い対数確率プロキシを通じて、理論的に望ましい重み付けをオンラインで追跡する適応型係数キャリブレーション手法であるOCCを新たに導入している。

成果

6つの数学的推論ベンチマークにおいて、OCCは一貫してDetachのベースラインと同等以上の性能を示した一方、交差エントロピー同時学習は一貫して性能が劣り、固定係数ポリシー損失は上昇後に下降するパターンを示した。報告された結果は、RLアルゴリズム(DAPOおよびGSPO)間やベースモデル間での汎化性も示しており、適応型プロキシに基づく手法による学習時間のオーバーヘッドはDetachと比較して無視できるレベルである。

論文の注目点

  1. 本論文は、MTPがRLに与える影響を、有益な勾配整合同期項と有害な2次摂動項に分解し、Detach、CE損失、ポリシー損失手法の統一的な説明を提供する。
  2. 提案されたOCC手法は、モデル全体の勾配計算を回避しつつ、オンラインの対数確率変化プロキシから適応的にMTP係数をキャリブレーションし、学習のダイナミクスを追跡する。
  3. 軽減策として提案したOCCは、固定係数の同時学習よりも安定しており、CEベースの同時学習を上回り、複数の推論ベンチマーク、RLアルゴリズム、モデル規模においてDetachと同等以上の結果を達成することが経験的に報告されている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。