論文の概要: Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
- arxiv url: http://arxiv.org/abs/2602.08984v1
- Date: Mon, 09 Feb 2026 18:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.421067
- Title: Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
- Title(参考訳): 離散潜在空間における次の概念予測はより強い言語モデルに導く
- Authors: Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin,
- Abstract要約: Next Concept Predictionは、Next Token Predictionの上に構築された、ジェネレーティブな事前学習パラダイムである。
我々のモデルであるConceptLMは、ベクトル量子化を用いて隠れ状態の定量化を行い、概念語彙を構築する。
13のベンチマークの結果、NCPは従来のトークンレベルのモデルよりも一貫したパフォーマンス向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 62.054835560934066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Next Concept Prediction (NCP), a generative pretraining paradigm built on top of Next Token Prediction (NTP). NCP predicts discrete concepts that span multiple tokens, thereby forming a more challenging pretraining objective. Our model, ConceptLM, quantizes hidden states using Vector Quantization and constructs a concept vocabulary. It leverages both NCP and NTP to drive parameter updates and generates a concept to guide the generation of the following tokens. We train ConceptLM from scratch at scales ranging from 70M to 1.5B parameters with up to 300B training data, including Pythia and GPT-2 backbones. Results on 13 benchmarks show that NCP yields consistent performance gains over traditional token-level models. Furthermore, continual pretraining experiments on an 8B-parameter Llama model indicate that NCP can further improve an NTP-trained model. Our analysis suggests that NCP leads to more powerful language models by introducing a harder pretraining task, providing a promising path toward better language modeling.
- Abstract(参考訳): 我々は,Next Token Prediction (NTP)上に構築された生成前訓練パラダイムであるNext Concept Prediction (NCP)を提案する。
NCPは複数のトークンにまたがる離散概念を予測し、それによってより困難な事前学習目標を形成する。
我々のモデルであるConceptLMは、ベクトル量子化を用いて隠れ状態の定量化を行い、概念語彙を構築する。
NCPとNTPの両方を活用してパラメータ更新を駆動し、以下のトークンの生成をガイドする概念を生成する。
我々は、PythiaやGPT-2のバックボーンを含む最大300Bのトレーニングデータを用いて、70Mから1.5BのパラメータでSceptLMをスクラッチからトレーニングする。
13のベンチマークの結果、NCPは従来のトークンレベルのモデルよりも一貫したパフォーマンス向上をもたらすことが示された。
さらに,8BパラメータLlamaモデルの連続事前学習実験により,NCPがNTP学習モデルをさらに改善できることが示唆された。
我々の分析によると、NCPはより難しい事前訓練タスクを導入し、よりよい言語モデリングへの道のりを提供することにより、より強力な言語モデルをもたらす。
関連論文リスト
- Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space [44.24277388571869]
我々は、新しい事前学習手法を提案する:潜在思考を用いた言語モデル(PonderLM-2)
我々のアプローチでは、まず言語モデル(LM)を事前訓練して、現在位置の最後の隠れ状態である中間潜在思考を生成し、その後、実際のトークンを予測するために入力として使用される。
実験により、同一の推論コストでトークンごとに1つの追加の潜在的思考を生成するLMが、パラメータの2倍の標準モデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-09-27T08:38:08Z) - Revisiting k-NN for Fine-tuning Pre-trained Language Models [25.105882538429743]
我々は PLM ベースの分類器を強化するために k-Nearest-Neighbor (kNN) 分類器を再検討する。
我々のアプローチの核心は、予測結果を簡単な例と難しい例の指標として扱うkNN校正トレーニングの実装である。
我々は、微調整、急速調整、ゼロショット、少数ショット、完全教師付き設定に関する広範な実験を行う。
論文 参考訳(メタデータ) (2023-04-18T15:28:47Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。