論文の概要: Predicting the Order of Upcoming Tokens Improves Language Modeling
- arxiv url: http://arxiv.org/abs/2508.19228v1
- Date: Tue, 26 Aug 2025 17:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.937292
- Title: Predicting the Order of Upcoming Tokens Improves Language Modeling
- Title(参考訳): 次世代トークンの順序予測は言語モデリングを改善する
- Authors: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji,
- Abstract要約: MTP(Multi-Token Prediction)は、言語モデルトレーニングにおいて、NTP(Next-Token Prediction)を改善する補助的目的として提案されている。
MTPの正確な将来的なトークン予測は補助的損失としては難しすぎると我々は主張する。
token Order Prediction (TOP) を提案し, 学習からランクへの損失を用いて, 近くでトークンを注文するようにモデルを訓練する。
- 参考スコア(独自算出の注目度): 15.048237391054611
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-Token Prediction (MTP) has been proposed as an auxiliary objective to improve next-token prediction (NTP) in language model training but shows inconsistent improvements, underperforming in standard NLP benchmarks. We argue that MTP's exact future token prediction is too difficult as an auxiliary loss. Instead, we propose Token Order Prediction (TOP), which trains models to order upcoming tokens by their proximity using a learning-to-rank loss. TOP requires only a single additional unembedding layer compared to MTP's multiple transformer layers. We pretrain models of 340M, 1.8B, and 7B parameters using NTP, MTP, and TOP objectives. Results on eight standard NLP benchmarks show that TOP overall outperforms both NTP and MTP even at scale. Our code is available at https://github.com/zaydzuhri/token-order-prediction
- Abstract(参考訳): MTP(Multi-Token Prediction)は、言語モデルのトレーニングにおいて、NTP(Next-token Prediction)を改善する補助的な目的として提案されているが、標準のNLPベンチマークでは不十分な、一貫性のない改善を示す。
MTPの正確な将来的なトークン予測は補助的損失としては難しすぎると我々は主張する。
そこで,TOP(Token Order Prediction)を提案する。このモデルでは,学習からランクへの損失を用いて,近くでトークンを注文するモデルを訓練する。
TOPは、MPPの複数のトランスフォーマー層と比較して、1つの追加のアンエンベディング層しか必要としない。
NTP, MTP, TOP を用いた340M, 1.8B, 7Bパラメータの事前学習を行った。
8 つの標準 NLP ベンチマークの結果,TOP は大規模でも NTP と MTP を総合的に上回っていることがわかった。
私たちのコードはhttps://github.com/zaydzuhri/token-order-predictionで利用可能です。
関連論文リスト
- Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文 参考訳(メタデータ) (2025-05-28T18:19:18Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [69.1271366892683]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - Efficient Joint Prediction of Multiple Future Tokens [20.647830092055955]
本稿では,JTP(Joint Multi-token Prediction)を導入する。
従来のマルチトークン予測手法とは異なり、JTPは将来トークンの教師強制を戦略的に採用している。
本稿では,JTP手法が短時間の信念状態表現を実現するのに対して,マルチトークン予測の一般的な代替手段では実現できないことを示す。
論文 参考訳(メタデータ) (2025-03-24T19:52:42Z) - Improving Next Tokens via Second-to-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の2番目から最後のトークンを予測するために,デコーダのみのアーキテクチャをトレーニングする。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。