論文の概要: Entropy-Aware On-Policy Distillation of Language Models
- arxiv url: http://arxiv.org/abs/2603.07079v1
- Date: Sat, 07 Mar 2026 07:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.795172
- Title: Entropy-Aware On-Policy Distillation of Language Models
- Title(参考訳): エントロピーを考慮した言語モデルのオンライン蒸留
- Authors: Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee,
- Abstract要約: エントロピーを意識したオン・ポリシィ蒸留について紹介する。
我々のキーとなる考え方は、教師のエントロピーが高い場合、標準逆KL目標を前方KLに増強することである。
モデム探索精度とモデム探索精度のバランスを保ち、モデムの訓練効率を犠牲にしない。
- 参考スコア(独自算出の注目度): 36.60992451188347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation is a promising approach for transferring knowledge between language models, where a student learns from dense token-level signals along its own trajectories. This framework typically uses reverse KL divergence, encouraging the student to match the teacher's high-confidence predictions. However, we show that the mode-seeking property of reverse KL reduces generation diversity and yields unstable learning signals when the teacher distribution has high entropy. To address this, we introduce Entropy-Aware On-Policy Distillation. Our key idea is augmenting the standard reverse KL objective with forward KL when teacher entropy is high, capturing the full range of plausible outputs while retaining precise imitation elsewhere. It balances mode-seeking precision with mode-covering robustness without sacrificing on-policy training efficiency. Experiments show that our method maintains generation diversity (sustained token-level entropy) and improves student-teacher alignment (lower forward KL on high-entropy tokens). Across six math reasoning benchmarks, this yields Pass@8 accuracy gains of +1.37 for Qwen3-0.6B-Base, +2.39 for Qwen3-1.7B-Base, and +5.05 for Qwen3-4B-Base compared to baseline on-policy distillation methods. These results demonstrate that accounting for teacher uncertainty is essential for maintaining diversity and achieving effective knowledge transfer.
- Abstract(参考訳): オンライン蒸留は、学生が自身の軌跡に沿って密集したトークンレベル信号から学習する言語モデル間で知識を伝達するための有望なアプローチである。
このフレームワークは典型的には逆KL分岐を使い、教師の高信頼の予測に合わせるように学生に促す。
しかし, 逆KLのモード探索特性は, 教師分布のエントロピーが高い場合, 生成の多様性を低減し, 不安定な学習信号が得られることを示す。
これを解決するために,Entropy-Aware On-Policy Distillationを導入する。
我々のキーとなるアイデアは、教師のエントロピーが高い場合の標準逆KL目標をフォワードKLで強化することであり、正確な模倣を維持しながら、可算出力の全範囲をキャプチャする。
モード探索精度とモード被覆ロバスト性とのバランスを保ち、オン・ポリティクスの訓練効率を犠牲にする。
実験により,提案手法は生成の多様性(トークンレベルのエントロピー)を維持し,高エントロピートークンのKLよりも低い)で生徒と教師のアライメントを向上させることが示された。
6つの数学推論ベンチマークで、これはQwen3-0.6B-Baseで+1.37、Qwen3-1.7B-Baseで+2.39、Qwen3-4B-Baseで+5.05となる。
これらの結果から,教師の不確実性の説明は多様性の維持と効果的な知識伝達の実現に不可欠であることが示唆された。
関連論文リスト
- Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation [50.19746127327559]
教師モデルのトップK予測確率と低確率予測確率の寄与を分離する新しいテールアウェア分岐を提案する。
実験により, 改良蒸留法は, デコーダモデルの事前学習と教師付き蒸留の両方において, 競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-24T11:54:06Z) - OVD: On-policy Verbal Distillation [47.727229201069555]
On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2026-01-29T16:48:14Z) - PLD: A Choice-Theoretic List-Wise Knowledge Distillation [12.52282972328311]
リストのランク付けを重み付けした "Plackett-Luce Distillation (PLD)" を導入する。
PLDは多様なアーキテクチャや蒸留目標に対して一貫した利益を達成する。
論文 参考訳(メタデータ) (2025-06-14T15:31:54Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - ToDi: Token-wise Distillation via Fine-Grained Divergence Control [9.958797874295355]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-22T06:51:16Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。