論文の概要: OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification
- arxiv url: http://arxiv.org/abs/2606.01476v1
- Date: Sun, 31 May 2026 22:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.725427
- Title: OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification
- Title(参考訳): OmniOPD: 投機的検証によるロジトフリーオンライン蒸留
- Authors: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Mingyi Wang, Peng Bo, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao,
- Abstract要約: On-Policy Distillation (OPD)は、強力な教師からの密集したトークンレベルフィードバックの下で、生徒モデルを自身の生成軌道上で訓練する。
OmniOPDはロジットフリーでチャンクレベルの監視信号を通じて両方の制限に対処する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 21.095025092772257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-Policy Distillation (OPD) trains a student model on its own generative trajectories under dense token-level feedback from a stronger teacher, mitigating both the off-policy distribution shift of Supervised Fine-Tuning (SFT) and the sparse credit assignment of Reinforcement Learning (RL). However, standard OPD faces two coupled limitations. First, it requires direct access to the teacher's token-level logits, excluding a broad class of capable proprietary models from serving as teachers. Second, the token-level logit signal itself is brittle, depending on a narrow overlap of plausible next tokens between teacher and student, and prone to amplifying degenerate patterns such as repetition loops. In this paper, we introduce OmniOPD, a novel framework that addresses both limitations through a logit-free, chunk-level supervision signal. OmniOPD replaces deterministic logit matching with Monte Carlo rollouts that approximate the teacher's local preferences through a continuous semantic similarity metric over multi-token chunks, and concentrates this supervision via a peak-entropy scheduler that audits the student only at its high-uncertainty reasoning forks. A Dirichlet-Multinomial Bayesian prior and a base-model KL anchor further bound the variance of discrete sampling and prevent policy collapse across unaudited tokens. Across competitive benchmarks, OmniOPD surpasses the standard OPD approach by up to +28.64% on math, confirming that chunk-level semantic verification extracts a more reliable learning signal than token-level logit matching, whose high information density is offset by significant noise and brittleness. Furthermore, when paired with stronger black-box teachers such as Claude-4.5-Haiku and Gemini-2.5-Flash, OmniOPD achieves an additional +9.54% relative on math over its open-weight teacher counterpart, advancing the student past the performance of self-exploratory RL.
- Abstract(参考訳): On-Policy Distillation (OPD)は、より強い教師からの密集したトークンレベルフィードバックの下で、学生モデルを自身の生成軌道上で訓練し、スーパーバイザード・ファイン・チューニング(SFT)の政治外分布シフトと強化学習(RL)の緩やかな信用配分を緩和する。
しかし、標準PDには2つの制約がある。
まず、教師のトークンレベルのロジットへの直接アクセスが必要で、教師として機能しない有能なプロプライエタリなモデルの幅広いクラスを除く。
第二に、トークンレベルのロジット信号自体が不安定であり、教師と学生の間では、もっともらしい次のトークンが狭く重複しているため、繰り返しループのような退化パターンを増幅する傾向がある。
本稿では,ロジットフリーでチャンクレベルの監視信号を通じて,両方の制約に対処する新しいフレームワークであるOmniOPDを紹介する。
OmniOPDは、決定論的ロジットマッチングをモンテカルロロールアウトに置き換え、教師の局所的嗜好をマルチトーケンチャンク上の連続的意味的類似度メトリックで近似し、この監督をピークエントロピースケジューラを通じて集中させ、生徒を高い不確実性推論フォークでのみ監査する。
ディリクレ・マルティノミアル・ベイズ先行と基底モデル KL アンカーは、離散サンプリングのばらつきをさらに束縛し、未確認トークン間の政策崩壊を防ぐ。
競合ベンチマーク全体では、OmniOPDは標準的なPDアプローチを+28.64%まで上回り、チャンクレベルのセマンティック検証がトークンレベルのロジットマッチングよりも信頼性の高い学習信号を抽出することを確認した。
さらに、Claude-4.5-HaikuやGemini-2.5-Flashといった強力なブラックボックスの教師とペアを組むと、OmniOPDは、オープンウェイトな教師よりも数学に比例する+9.54%を達成し、自己探索的RLよりも生徒を前進させる。
関連論文リスト
- Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation [28.572361799234784]
生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
論文 参考訳(メタデータ) (2026-05-26T10:56:46Z) - X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation [19.064775527374618]
クロストケナイザーの知識蒸留により、学生モデルは語彙を持つ教師から学ぶことができる。
ログベースの手法は正しい確率のみを使用し、教師の分布に完全な「暗黒の知識」を欠いている。
本稿では,これらの問題を対象とした2つの相補的損失定式化手法であるX-Tokenを提案する。
論文 参考訳(メタデータ) (2026-05-20T19:59:31Z) - Self-Distilled Agentic Reinforcement Learning [65.24201057390938]
自己蒸留型エージェント強化学習は、トークンレベルの信号をシグモノイドゲートにマップする。
SDARはモデルスケール全体のハイブリッドRL--OPSDベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-14T17:51:26Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation [39.59759394378816]
オンライン蒸留は、教師と学生の予測がトークン単位で同等のトークンであると仮定する。
監視空間を拡大してこの信号を復元するSimCTを提案する。
SimCT は共有語彙 OPD と代表的クロストケナイザベースラインに対して一貫した利得を示す。
論文 参考訳(メタデータ) (2026-05-08T13:16:17Z) - PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners [9.324642081509756]
大規模言語モデル(LLM)推論には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
近年の独占型自己蒸留は,同じモデルによる学生のロールアウトを,検証済みのソリューションコンテキスト下で評価することによって中等地を探索している。
ロールアウト-参照重なりに応じて検証された解を隠蔽し、エントロピー-ミスマッチトークンのスパースセットに小さなエネルギー空間を適用したPAINTを提案する。
論文 参考訳(メタデータ) (2026-04-29T11:56:07Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。