論文の概要: TIP: Token Importance in On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2604.14084v2
- Date: Sun, 19 Apr 2026 02:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.115746
- Title: TIP: Token Importance in On-Policy Distillation
- Title(参考訳): TIP : オンライン蒸留におけるトークンの重要性
- Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard,
- Abstract要約: 情報トークンは,高校生のエントロピーが高い位置と学生のエントロピーが低い位置の2つの領域から得られることを示す。
TIP (Token Importance in On-Policy distillation), 学生エントロピーに対する2軸分類法, 教師の分散傾向を整理した。
本画像は,MATH-500およびAIME 2024/2025におけるQwen3,Llama,Qwen2.5にまたがる3つの教師学生対と,長期エージェント計画のためのDeepPlanningベンチマークで検証した。
- 参考スコア(独自算出の注目度): 20.04756350098974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy knowledge distillation (OPD) trains a student on its own rollouts under token-level supervision from a teacher. Not all token positions matter equally, but existing views of token importance are incomplete. We ask a direct question: which tokens carry the most useful learning signal in OPD? Our answer is that informative tokens come from two regions: positions with high student entropy, and positions with low student entropy plus high teacher--student divergence, where the student is overconfident and wrong. Empirically, student entropy is a strong first-order proxy: retaining $50\%$ of tokens with entropy-based sampling matches or exceeds all-token training while reducing peak memory by up to $47\%$. But entropy alone misses a second important region. When we isolate low-entropy, high-divergence tokens, training on fewer than $10\%$ of all tokens nearly matches full-token baselines, showing that overconfident tokens carry dense corrective signal despite being nearly invisible to entropy-only rules. We organize these findings with TIP (Token Importance in on-Policy distillation), a two-axis taxonomy over student entropy and teacher--student divergence, and give a theoretical explanation for why entropy is useful yet structurally incomplete. This view motivates type-aware token selection rules that combine uncertainty and disagreement. We validate this picture across three teacher--student pairs spanning Qwen3, Llama, and Qwen2.5 on MATH-500 and AIME 2024/2025, and on the DeepPlanning benchmark for long-horizon agentic planning, where Q3-only training on $<$$20\%$ of tokens surpasses full-token OPD. Our experiments are implemented by extending the OPD repository https://github.com/HJSang/OPSD_OnPolicyDistillation, which supports memory-efficient distillation of larger models under limited GPU budgets.
- Abstract(参考訳): オンライン知識蒸留(On-policy knowledge distillation、OPD)は、教師のトークンレベルの監督の下で、学生を自身のロールアウトで訓練する。
すべてのトークンの位置が等しく重要であるわけではないが、トークンの重要性に関する既存の見解は不完全である。
我々は直接質問する:どのトークンがOPDでもっとも有用な学習信号を持っているか?
我々の答えは、情報トークンは、生徒のエントロピーが高い位置と、学生のエントロピーが低い位置と、生徒が過度に自信と間違いを負う学生の発散率の高い位置の2つの領域から来ているということだ。
生徒のエントロピーは、エントロピーベースのサンプリングマッチを持つトークンの50\%を保持、あるいは全学トレーニングを超え、ピークメモリを最大4,7\%まで削減するという、強力なファーストオーダープロキシである。
しかし、エントロピーだけでも第2の重要領域を見逃している。
低エントロピー、高発散トークンを分離すると、すべてのトークンの10セント未満のトレーニングは、ほぼ完全なベースラインと一致し、過信トークンはエントロピーのみのルールにほとんど見えないにもかかわらず、密集した修正信号を運ぶことを示す。
TIP (Token Importance in On-Policy distillation, a two-axis taxonomy over students entropy and teacher-student divergence) を用いてこれらの知見を整理し, エントロピーが構造的に不完全である理由を理論的に説明する。
この見解は、不確実性と不一致を組み合わせたタイプアウェアトークン選択ルールを動機付けている。
我々は,Qwen3,Llama,Qwen2.5にまたがる,MATH-500とAIME 2024/2025にまたがる3つの教師学生ペアと,Q3のみのトークンの額がフルトークンPDを超えている長期エージェント計画のためのDeepPlanningベンチマークで,この図を検証した。
OPDリポジトリ https://github.com/HJSang/OPSD_OnPolicyDistillation を拡張して,GPU予算に制限のある大規模モデルのメモリ効率の高い蒸留をサポートする実験を行った。
関連論文リスト
- Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [5.691990020513277]
本稿では,2つの新しいアルゴリズムによる報酬の微粒化を促進するメカニズムである動的エントロピー重み付けを提案する。
報酬形成のための政策のエントロピーを再取得することで、我々は真にトークン単位の信用割り当てを達成できる。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である
CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。
実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2025-06-09T14:55:00Z) - Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning [80.87085014818052]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
論文 参考訳(メタデータ) (2025-06-02T17:54:39Z) - A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone [41.9829555690118]
低ランククローン(Lol-Rank Clone、LRC)は、強力な教師モデルによる行動等価性を目指すSLMを構築するための効率的な事前学習手法である。
LRCは、20Bトークンしか使用せず、1000倍以上のトレーニング効率を達成しながら、何十兆ものトークンでトレーニングされた最先端のモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-05-19T07:10:42Z) - Tokenization and the Noiseless Channel [71.25796813073399]
優れたトークン化器は、ある入力がモデルに伝達される手段であるチャネルの使用率を高める。
機械翻訳では、複数のトークン化器において、$alpha = 2.5$のR'enyiエントロピーがtextscBleu: $0.78$と非常に強い相関を持つことがわかった。
論文 参考訳(メタデータ) (2023-06-29T10:32:09Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。