論文の概要: Pre-Training Curriculum for Multi-Token Prediction in Language Models
- arxiv url: http://arxiv.org/abs/2505.22757v1
- Date: Wed, 28 May 2025 18:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.470204
- Title: Pre-Training Curriculum for Multi-Token Prediction in Language Models
- Title(参考訳): 言語モデルにおけるマルチトークン予測のための事前学習カリキュラム
- Authors: Ansar Aynetdinov, Alan Akbik,
- Abstract要約: MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
- 参考スコア(独自算出の注目度): 2.8071268036220003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-token prediction (MTP) is a recently proposed pre-training objective for language models. Rather than predicting only the next token (NTP), MTP predicts the next $k$ tokens at each prediction step, using multiple prediction heads. MTP has shown promise in improving downstream performance, inference speed, and training efficiency, particularly for large models. However, prior work has shown that smaller language models (SLMs) struggle with the MTP objective. To address this, we propose a curriculum learning strategy for MTP training, exploring two variants: a forward curriculum, which gradually increases the complexity of the pre-training objective from NTP to MTP, and a reverse curriculum, which does the opposite. Our experiments show that the forward curriculum enables SLMs to better leverage the MTP objective during pre-training, improving downstream NTP performance and generative output quality, while retaining the benefits of self-speculative decoding. The reverse curriculum achieves stronger NTP performance and output quality, but fails to provide any self-speculative decoding benefits.
- Abstract(参考訳): MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
MTPは次のトークン(NTP)のみを予測するのではなく、複数の予測ヘッドを使用して、各予測ステップで次の$k$トークンを予測する。
MTPは、特に大型モデルにおいて、下流のパフォーマンス、推論速度、トレーニング効率を改善することを約束している。
しかし、以前の研究により、より小さな言語モデル(SLM)がMPPの目的と競合していることが示されている。
そこで本研究では,NTP から MTP への事前学習対象の複雑さを徐々に増大させるフォワードカリキュラムと,その逆の逆カリキュラムという,MPP トレーニングのためのカリキュラム学習戦略を提案する。
実験の結果, 事前学習において, SLM が MTP の目的をうまく活用し, 下流 NTP 性能と生成出力品質を向上し, 自己投機的復号化の利点を保ちつつも有効であることがわかった。
逆のカリキュラムはNTPの性能と出力品質を向上するが、自己投機的復号化の利点は得られない。
関連論文リスト
- L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [69.1271366892683]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z) - Reasoning Bias of Next Token Prediction Training [5.188841610098436]
次世代トークン予測(NTP)は,大規模言語モデル(LLM)の主要なトレーニングパラダイムである
トレーニング中にNTPが騒音に曝露しても,推論能力は上回っていることが明らかとなった。
この逆直感的な結果は、トレーニング力学における雑音の正規化の影響に起因している。
論文 参考訳(メタデータ) (2025-02-04T04:46:41Z) - NDP: Next Distribution Prediction as a More Broad Target [59.30497395313209]
我々はNext Distribution Prediction (NDP)を導入し、$n$-gramの分布を使って1ホットターゲットを置き換える。
NDPは翻訳タスクで最大2.97 COMETの改善、一般タスクで平均0.61、医療領域で平均10.75の改善を達成できる。
論文 参考訳(メタデータ) (2024-08-30T16:13:49Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - MTI-Net: A Multi-Target Speech Intelligibility Prediction Model [25.124218779681875]
本研究では,MTI-Netと呼ばれるマルチタスク音声のインテリジェンス予測モデルを提案し,人間と機械のインテリジェンス対策を同時に予測する。
具体的には、MTI-Netは、主観的な聞き取りテスト結果と単語誤り率(WER)のスコアを予測するように設計されている。
論文 参考訳(メタデータ) (2022-04-07T09:17:04Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。