論文の概要: SOD: Step-wise On-policy Distillation for Small Language Model Agents
- arxiv url: http://arxiv.org/abs/2605.07725v1
- Date: Fri, 08 May 2026 13:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.072268
- Title: SOD: Step-wise On-policy Distillation for Small Language Model Agents
- Title(参考訳): SOD:小言語モデルエージェントのためのステップワイズオンポリシー蒸留
- Authors: Qiyong Zhong, Mao Zheng, Mingyang Song, Xin Lin, Jie Sun, Houcheng Jiang, Xiang Wang, Junfeng Fang,
- Abstract要約: ツール統合推論は、小さな言語モデルにスケールすることが難しい。
近年,教師から密集したトークンレベルの監督を施すことで,オンライン蒸留が普及している。
スモールランゲージモデルエージェントのための段階的オンライン蒸留フレームワークであるSODを提案する。
- 参考スコア(独自算出の注目度): 32.49707795291693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated reasoning (TIR) is difficult to scale to small language models due to instability in long-horizon tool interactions and limited model capacity. While reinforcement learning methods like group relative policy optimization provide only sparse outcome-level rewards. Recently, on-policy distillation (OPD) has gained popularity by supplying dense token-level supervision from a teacher on student-generated trajectories. However, our experiments indicate that applying OPD to TIR leads to a critical failure mode: erroneous tool calls tend to cascade across subsequent reasoning steps, progressively amplifying student-teacher divergence and rendering the teacher's token-level supervision increasingly unreliable. To address this, we propose SOD, a step-wise on-policy distillation framework for small language model agents, which adaptively reweights distillation strength at each step based on step-level divergence. Therefore, SOD can attenuate potentially misleading teacher signals in high-divergence regions while preserving dense guidance in well-aligned states. Experiments on challenging math, science, and code benchmarks show that SOD achieves up to 20.86% improvement over the second-best baseline. Notably, our 0.6B student achieves 26.13% on AIME 2025, demonstrating effective transfer of agentic reasoning to lightweight models. Our code is available at https://github.com/YoungZ365/SOD.
- Abstract(参考訳): ツール統合推論(TIR)は、長期ツール間の相互作用の不安定さとモデルキャパシティの制限により、小さな言語モデルにスケールすることが困難である。
グループ相対的政策最適化のような強化学習手法は、結果レベルの報酬のみを提供する。
近年, 学生が生み出すトラジェクトリについて, 教師に密集したトークンレベルの監督を施すことで, オンライン蒸留(OPD)が普及している。
誤ったツールコールは、その後の推論ステップにまたがってカスケードする傾向があり、段階的に生徒と教師の分散を増幅し、教師のトークンレベルの監督をますます信頼できないものにする傾向にある。
そこで本研究では,ステップレベルの分散に基づく各ステップにおける蒸留強度を適応的に再加重する,小規模言語モデルエージェントのための段階的オンライン蒸留フレームワークであるSODを提案する。
したがって、SODは、高度分散領域における教師信号の誤誘導を抑えつつ、高度に整合した状態における密集した指導を保ちつつ、潜在的に誤解を招くおそれのある教師信号の減衰を抑えることができる。
挑戦的な数学、科学、コードベンチマークの実験は、SODが2番目に良いベースラインよりも最大20.86%改善していることを示している。
特に、私たちの 0.6B の学生は AIME 2025 で 26.13% を獲得し、エージェント推論を軽量モデルに効果的に転送することを示した。
私たちのコードはhttps://github.com/YoungZ365/SOD.comで公開されています。
関連論文リスト
- TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - SODA: Semi On-Policy Black-Box Distillation for Large Language Models [19.748920924563546]
大きな言語モデルに対するブラックボックスの知識蒸留は厳密なトレードオフをもたらす。
4つのコンパクトQwen2.5およびLlama-3モデルのセミ評価は、このセミオン政治パラダイムを検証する。
トレーニングを10倍速くし、27%のピークGPUメモリを消費し、対向不安定性を完全に排除しながら、この優れた蒸留品質を実現する。
論文 参考訳(メタデータ) (2026-04-04T21:38:22Z) - OVD: On-policy Verbal Distillation [47.727229201069555]
On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2026-01-29T16:48:14Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。