Fugu-MT 論文翻訳(概要): SOD: Step-wise On-policy Distillation for Small Language Model Agents

論文の概要: SOD: Step-wise On-policy Distillation for Small Language Model Agents

arxiv url: http://arxiv.org/abs/2605.07725v1
Date: Fri, 08 May 2026 13:30:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.072268
Title: SOD: Step-wise On-policy Distillation for Small Language Model Agents
Title（参考訳）: SOD:小言語モデルエージェントのためのステップワイズオンポリシー蒸留
Authors: Qiyong Zhong, Mao Zheng, Mingyang Song, Xin Lin, Jie Sun, Houcheng Jiang, Xiang Wang, Junfeng Fang,
Abstract要約: ツール統合推論は、小さな言語モデルにスケールすることが難しい。近年,教師から密集したトークンレベルの監督を施すことで,オンライン蒸留が普及している。スモールランゲージモデルエージェントのための段階的オンライン蒸留フレームワークであるSODを提案する。
参考スコア（独自算出の注目度）: 32.49707795291693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tool-integrated reasoning (TIR) is difficult to scale to small language models due to instability in long-horizon tool interactions and limited model capacity. While reinforcement learning methods like group relative policy optimization provide only sparse outcome-level rewards. Recently, on-policy distillation (OPD) has gained popularity by supplying dense token-level supervision from a teacher on student-generated trajectories. However, our experiments indicate that applying OPD to TIR leads to a critical failure mode: erroneous tool calls tend to cascade across subsequent reasoning steps, progressively amplifying student-teacher divergence and rendering the teacher's token-level supervision increasingly unreliable. To address this, we propose SOD, a step-wise on-policy distillation framework for small language model agents, which adaptively reweights distillation strength at each step based on step-level divergence. Therefore, SOD can attenuate potentially misleading teacher signals in high-divergence regions while preserving dense guidance in well-aligned states. Experiments on challenging math, science, and code benchmarks show that SOD achieves up to 20.86% improvement over the second-best baseline. Notably, our 0.6B student achieves 26.13% on AIME 2025, demonstrating effective transfer of agentic reasoning to lightweight models. Our code is available at https://github.com/YoungZ365/SOD.
Abstract（参考訳）: ツール統合推論(TIR)は、長期ツール間の相互作用の不安定さとモデルキャパシティの制限により、小さな言語モデルにスケールすることが困難である。グループ相対的政策最適化のような強化学習手法は、結果レベルの報酬のみを提供する。近年, 学生が生み出すトラジェクトリについて, 教師に密集したトークンレベルの監督を施すことで, オンライン蒸留(OPD)が普及している。誤ったツールコールは、その後の推論ステップにまたがってカスケードする傾向があり、段階的に生徒と教師の分散を増幅し、教師のトークンレベルの監督をますます信頼できないものにする傾向にある。そこで本研究では,ステップレベルの分散に基づく各ステップにおける蒸留強度を適応的に再加重する,小規模言語モデルエージェントのための段階的オンライン蒸留フレームワークであるSODを提案する。したがって、SODは、高度分散領域における教師信号の誤誘導を抑えつつ、高度に整合した状態における密集した指導を保ちつつ、潜在的に誤解を招くおそれのある教師信号の減衰を抑えることができる。挑戦的な数学、科学、コードベンチマークの実験は、SODが2番目に良いベースラインよりも最大20.86%改善していることを示している。特に、私たちの 0.6B の学生は AIME 2025 で 26.13% を獲得し、エージェント推論を軽量モデルに効果的に転送することを示した。私たちのコードはhttps://github.com/YoungZ365/SOD.comで公開されています。

論文の概要: SOD: Step-wise On-policy Distillation for Small Language Model Agents

関連論文リスト