論文の概要: Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.09253v1
- Date: Sun, 10 May 2026 01:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.145431
- Title: Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation
- Title(参考訳): コーナストーンかタンブリングブロックか? オンライン蒸留における岩石トークンの解読
- Authors: Yuxuan Jiang, Runchao Li, Shubhashis Roy Dipta, Dawei Li, Zhao Yang,
- Abstract要約: On-Policy DistillationのKL目標に基づく学生と教師のミスマッチの最も直接的なシグナルとして,トークンタイプの高損失トークンについて検討する。
これらのトークンは、モデルの実際の推論性能に無視可能な機能的貢献を提供する。
- 参考スコア(独自算出の注目度): 4.624042537090342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent work in Reinforcement Learning with Verifiable Rewards (RLVR) has shown that a small subset of critical tokens disproportionately drives reasoning gains, an analogous token-level understanding of On-Policy Distillation (OPD) remains largely unexplored. In this work, we investigate high-loss tokens, a token type that--as the most direct signal of student-teacher mismatch under OPD's per-token KL objective--should progressively diminish as training converges according to existing studies; however, our empirical analysis shows otherwise. Even after OPD training reaches apparent saturation, a substantial subset of tokens continues to exhibit persistently high loss; these tokens, which we term Rock Tokens, can account for up to 18\% of the tokens in generated outputs. Our investigation reveals two startling paradoxes. First, despite their high occurrence frequency providing a disproportionately large share of total gradient norms, Rock Tokens themselves remain stagnant throughout training, resisting teacher-driven corrections. Second, through causal intervention, we find that these tokens provide negligible functional contribution to the model's actual reasoning performance. These findings suggest that a vast amount of optimization bandwidth is spent on structural and discourse residuals that the student model cannot or need not internalize. By deconstructing these dynamics, we demonstrate that strategically bypassing these ``stumbling blocks'' can significantly streamline the alignment process, challenging the necessity of uniform token weighting and offering a more efficient paradigm for large-scale model distillation.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) の最近の研究は、重要なトークンの小さなサブセットが推論ゲインを不均等に駆動することを示したが、オン・ポリシィ蒸留(OPD)の類似のトークンレベルの理解はいまだにほとんど解明されていない。
本研究は, 学生と教師のミスマッチの最も直接的なシグナルであるトークンタイプである高損失トークンを, 既存の研究によって学習が収束するにつれて, 徐々に減少していくことを示すものである。
OPDトレーニングが明らかに飽和に達した後も、トークンのかなりのサブセットは持続的に高い損失を示し続けており、これらトークンはRock Tokensと呼ばれ、生成された出力のトークンの最大18%を占めることができる。
我々の調査では、2つの急激なパラドックスが明らかになっている。
第一に、高い発生頻度が全勾配ノルムを不均等に多用しているにもかかわらず、ロック・トーケンズ自身は教師主導の修正に抵抗し、訓練を通して停滞している。
第二に、因果的介入により、これらのトークンはモデルの実際の推論性能に無視できる機能的貢献を提供する。
これらの結果は,学生モデルが内部化できない,あるいは必要としない構造的および談話的残差に対して,膨大な最適化帯域幅が費やされていることを示唆している。
これらの力学をデコンストラクテーションすることにより、これらの「振動ブロック」を戦略的にバイパスすることで、アライメントプロセスを大幅に効率化することができ、均一なトークン重み付けの必要性に挑戦し、大規模モデルの蒸留のためのより効率的なパラダイムを提供することを示した。
関連論文リスト
- Context Bootstrapped Reinforcement Learning [51.213972559315486]
Reinforcement Learning from Verifiable Rewards (RLVR) は、探索の非効率さに悩まされている。
我々は,数発のデモをトレーニングプロンプトに先立ってRLVRトレーニングを増強するContextped Bootstrapped Reinforcement Learning (CBRL)を提案する。
CBRLは、成功率を一貫して改善し、探索効率を向上し、アルゴリズムに依存しない。
論文 参考訳(メタデータ) (2026-03-19T14:23:59Z) - Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning [64.04741347596938]
Token Hidden Reward (THR) はトークンレベルのメトリクスで、それぞれのトークンが正しい応答の確率に与える影響を定量化する。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
この知見は、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行うTHR誘導再重み付けアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2025-10-04T04:49:44Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - ToDi: Token-wise Distillation via Fine-Grained Divergence Control [9.958797874295355]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-22T06:51:16Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Keypoint-based Progressive Chain-of-Thought Distillation for LLMs [46.53906673648466]
思考の連鎖蒸留は、推論能力を大きな言語モデルからより小さな学生モデルに伝達する強力な技術である。
従来の手法では、学生はLLMによって生成されるステップバイステップの合理性を模倣する必要がある。
我々はこれらの問題に対処する統合フレームワークKPODを提案する。
論文 参考訳(メタデータ) (2024-05-25T05:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。