論文の概要: Alternatives To Next Token Prediction In Text Generation - A Survey
- arxiv url: http://arxiv.org/abs/2509.24435v1
- Date: Mon, 29 Sep 2025 08:18:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.855408
- Title: Alternatives To Next Token Prediction In Text Generation - A Survey
- Title(参考訳): テキスト生成における次のトークン予測の代替 - 調査より
- Authors: Charlie Wyatt, Aditya Joshi, Flora Salim,
- Abstract要約: Next Token Prediction (NTP) は、Large Language Models (LLMs) を前例のない成功に導いた。
本調査では,NTPに代わる新たなエコシステムについて述べる。
これらの方法で洞察を合成することにより、この調査はトークンレベルの生成の既知の限界に対処するモデルの研究を導くための分類学を提供する。
- 参考スコア(独自算出の注目度): 6.265318453053869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of Next Token Prediction (NTP) has driven the unprecedented success of Large Language Models (LLMs), but is also the source of their most persistent weaknesses such as poor long-term planning, error accumulation, and computational inefficiency. Acknowledging the growing interest in exploring alternatives to NTP, the survey describes the emerging ecosystem of alternatives to NTP. We categorise these approaches into five main families: (1) Multi-Token Prediction, which targets a block of future tokens instead of a single one; (2) Plan-then-Generate, where a global, high-level plan is created upfront to guide token-level decoding; (3) Latent Reasoning, which shifts the autoregressive process itself into a continuous latent space; (4) Continuous Generation Approaches, which replace sequential generation with iterative, parallel refinement through diffusion, flow matching, or energy-based methods; and (5) Non-Transformer Architectures, which sidestep NTP through their inherent model structure. By synthesizing insights across these methods, this survey offers a taxonomy to guide research into models that address the known limitations of token-level generation to develop new transformative models for natural language processing.
- Abstract(参考訳): NTP(Next Token Prediction)のパラダイムは、Large Language Models (LLMs) を前例のない成功に導いただけでなく、長期計画の貧弱、エラーの蓄積、計算不効率といった最も永続的な弱点の源ともなっている。
NTPに代わる選択肢を探求することへの関心が高まっていることを認識し、調査では、NTPに代わる選択肢の新たなエコシステムについて説明している。
提案手法は,(1)将来のトークンのブロックを対象とするマルチトークン予測,(2)グローバルでハイレベルなプランを前もって作成してトークンレベルのデコーディングをガイドするプラン-then-Generate,(3)自己回帰的プロセス自体を連続的な遅延空間に変換する遅延推論,(4)拡散,フローマッチング,エネルギーベースの手法による逐次的並列化に置き換える連続生成アプローチ,(5)非トランスフォーマーアーキテクチャ,の5つのファミリーに分類する。
これらの方法で洞察を合成することにより、この調査はトークンレベル生成の既知の限界に対処するモデルの研究を指導し、自然言語処理のための新しい変換モデルを開発するための分類学を提供する。
関連論文リスト
- A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [71.66119575697458]
トークン・バイ・トークン生成のボトルネックを破り、推論効率を向上させることを目的とした並列テキスト生成技術。
既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類し、各カテゴリの中核技術について詳細に検討する。
我々は、最近の進歩を強調し、オープンな課題を特定し、並列テキスト生成における将来的な研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-08-12T07:56:04Z) - Planning-Aware Code Infilling via Horizon-Length Prediction [17.01133761213624]
Horizon-Length Prediction (HLP)は、各ステップで残るミドルトークンの数を予測するモデルを教える。
HLPは様々なベンチマークでFIM性能を最大24%向上させる。
HLPは無視できるトレーニングオーバーヘッドを発生させ、追加の推論コストを発生させ、現実のシナリオでその実用性を保証する。
論文 参考訳(メタデータ) (2024-10-04T02:53:52Z) - Implicit Optimization Bias of Next-Token Prediction in Linear Models [32.2896512612788]
NTP(Next-token Prediction)は、現代の言語モデルにおける主要なトレーニングパラダイムである。
勾配に基づく一般化により選択された解の構造的性質について検討する。
論文 参考訳(メタデータ) (2024-02-28T18:34:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。