論文の概要: SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
- arxiv url: http://arxiv.org/abs/2604.10688v1
- Date: Sun, 12 Apr 2026 15:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.173118
- Title: SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
- Title(参考訳): SCOPE:Dual-Path Adaptive Weightingによる信号校正オンポリティ蒸留の強化
- Authors: Binbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai,
- Abstract要約: 両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 17.504616835765617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.
- Abstract(参考訳): オンライン強化学習は、大規模言語モデルにおけるアライメントを推論する主要なパラダイムとなっているが、その希薄で結果レベルの報酬はトークンレベルの信用代入を非常に困難にしている。
On-Policy Distillation (OPD) は教師モデルから密集したトークンレベルのKL管理を導入することでこれを緩和するが、通常はこの監督をすべてのロールアウトに均一に適用し、信号品質の根本的な違いを無視している。
両経路適応型学習フレームワークであるSCOPE(Signal-Calibrated On-Policy Distillation Enhancement)を提案する。
SCOPEは、教師が真の補正能力を示す場合を優先し、教師が信頼できない指導を下降させるように、教師が複雑度を重み付けしたKL蒸留を行う。
正しい軌道は、生徒が複雑度を重み付けしたMLEを用いて、既にマスターされているものを過剰に強化するのではなく、能力境界における低信頼のサンプルに強化を集中させる。
どちらの経路も群準正規化を用いて重み分布を適応的に調整し、プロンプト間の固有の困難さを考慮に入れている。
6つの推論ベンチマークの大規模な実験により、SCOPEはAvg@32で11.42%、Pass@32で7.30%の平均相対的な改善を達成し、一貫性のある有効性を示している。
関連論文リスト
- Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training [11.136092421166097]
Agentic RAGは、外部知識を取り入れることで、大きな言語モデルを強化する。
現在のRLベースのトレーニング手法は、中間信号を捨てるスパース結果報酬に悩まされている。
本稿では,エージェントRAGトレーニングにパス中心の報酬形成を導入するフレームワークであるSearch-P1を提案する。
論文 参考訳(メタデータ) (2026-02-26T03:31:00Z) - GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning [55.03441672267886]
強化学習のための勾配整列データ選択法GradAlignを提案する。
GradAlignは,信頼できない報酬信号,分散不均衡,低ユーティリティトレーニングコーパスの3つにまたがって評価する。
論文 参考訳(メタデータ) (2026-02-25T01:54:50Z) - VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training [18.849117699859622]
訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
論文 参考訳(メタデータ) (2026-02-11T09:48:08Z) - DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning [31.369103012768964]
DISPOは単純だが効果的なREINFORCEスタイルのアルゴリズムで、正しい反応と間違った反応のために重要なサンプリング重量の上昇と下降を分離する。
DISPO は AIME'24 (55.42% CISPO と 50.21% DAPO) で 61.04% を達成することを示す。
論文 参考訳(メタデータ) (2026-02-01T02:45:04Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。