論文の概要: NITP: Next Implicit Token Prediction for LLM Pre-training
- arxiv url: http://arxiv.org/abs/2605.24956v1
- Date: Sun, 24 May 2026 09:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.543038
- Title: NITP: Next Implicit Token Prediction for LLM Pre-training
- Title(参考訳): NITP: LLM事前学習における次のインシシシトトークン予測
- Authors: Xiangdong Zhang, Debing Zhang, Shaofeng Zhang, Xiaohan Qin, Yu Cheng, Junchi Yan,
- Abstract要約: 本研究では,表現空間に直接集中的監督を施した離散予測を増大させるために,Next Implicit Token Prediction (NITP)を提案する。
NITPは、安定な自己教師対象と同じモデルから浅層表現を用いて、次のトークンの暗黙的なセマンティック内容を予測するようにモデルを訓練する。
実験的には、0.5Bから9Bのパラメータを含む高密度モデルとMoEモデルにまたがって、NITPは無視できる計算オーバーヘッドでダウンストリーム性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 62.744626632562664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard next-token prediction (NTP) supervises language models solely through discrete labels in the output logit space. We argue that this sparse one-hot supervision leaves the latent representation space under-constrained, allowing hidden states to drift into degenerate and anisotropic configurations that can limit generalization. To address this issue, we propose Next Implicit Token Prediction (NITP), which augments discrete prediction with dense continuous supervision directly in the representation space. NITP trains the model to predict the implicit semantic content of the next token, using shallow-layer representations from the same model as stable self-supervised targets. We provide theoretical analysis showing that NITP regularizes the optimization landscape by mitigating under-constrained degrees of freedom and encouraging a compact, structured representation geometry. Empirically, across dense and MoE models ranging from 0.5B to 9B parameters, NITP consistently improves downstream performance with negligible computational overhead. On a 9B MoE model, NITP achieves a 5.7% absolute improvement on MMLU-Pro, along with gains of 6.4% on C3 and 4.3% on CommonsenseQA, with approximately 2% additional training FLOPs and no additional inference cost. Our implementation is available at https://github.com/aHapBean/NITP.
- Abstract(参考訳): NTP(Standard Next-token Prediction)は、出力ロジット空間の離散ラベルのみを通して言語モデルを監督する。
この疎い一点の監督は、潜在表現空間を制約下に残し、隠れた状態が一般化を制限できる退化的および異方的構成に漂着することを許容する。
この問題に対処するために、表現空間内で直接、密集した連続的な監督を伴う離散予測を増強するNext Implicit Token Prediction (NITP)を提案する。
NITPは、安定な自己教師対象と同じモデルから浅層表現を用いて、次のトークンの暗黙的なセマンティック内容を予測するようにモデルを訓練する。
我々は、NITPが制約の少ない自由度を緩和し、コンパクトで構造化された表現幾何学を奨励することによって最適化景観を規則化することを示す理論的解析を行う。
実験的には、0.5Bから9Bのパラメータを含む高密度モデルとMoEモデルにまたがって、NITPは無視できる計算オーバーヘッドでダウンストリーム性能を一貫して改善する。
9B MoEモデルでは、NITPはMMLU-Proが5.7%、C3が6.4%、CommonsenseQAが4.3%、FLOPが約2%、追加の推論コストが存在しない。
私たちの実装はhttps://github.com/aHapBean/NITPで公開されています。
関連論文リスト
- Rethinking Point Clouds as Sequences: A Causal Next-Token Predictive Learning Framework [31.937606388374885]
我々は、ポイントクラウド事前学習を、完全に因果的かつデコーダのない潜伏型次世代予測問題として再構成するPointNTPを紹介した。
提案されたPointNTPは、複数のダウンストリームタスクで非常に競争力がある。
論文 参考訳(メタデータ) (2026-05-17T17:54:55Z) - Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA [50.494504099850325]
我々は、トークン列が滑らかな意味多様体上の測地線を辿り、従って局所線型であることを示す測地論仮説を導入する。
本稿では,この制約により信号対雑音比が向上し,軌道中の衝突を防止することにより多様性が保たれることを示す。
幾何学的先行性は、ブルートフォーススケーリングを超越できることを実証する。
論文 参考訳(メタデータ) (2026-02-26T04:45:07Z) - Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models [62.054835560934066]
Next Concept Predictionは、Next Token Predictionの上に構築された、ジェネレーティブな事前学習パラダイムである。
我々のモデルであるConceptLMは、ベクトル量子化を用いて隠れ状態の定量化を行い、概念語彙を構築する。
13のベンチマークの結果、NCPは従来のトークンレベルのモデルよりも一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2026-02-09T18:33:31Z) - Predicting the Order of Upcoming Tokens Improves Language Modeling [15.048237391054611]
MTP(Multi-Token Prediction)は、言語モデルトレーニングにおいて、NTP(Next-Token Prediction)を改善する補助的目的として提案されている。
MTPの正確な将来的なトークン予測は補助的損失としては難しすぎると我々は主張する。
token Order Prediction (TOP) を提案し, 学習からランクへの損失を用いて, 近くでトークンを注文するようにモデルを訓練する。
論文 参考訳(メタデータ) (2025-08-26T17:43:30Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - Implicit Optimization Bias of Next-Token Prediction in Linear Models [32.2896512612788]
NTP(Next-token Prediction)は、現代の言語モデルにおける主要なトレーニングパラダイムである。
勾配に基づく一般化により選択された解の構造的性質について検討する。
論文 参考訳(メタデータ) (2024-02-28T18:34:53Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。