論文の概要: The pitfalls of next-token prediction
- arxiv url: http://arxiv.org/abs/2403.06963v1
- Date: Mon, 11 Mar 2024 17:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:45:30.106810
- Title: The pitfalls of next-token prediction
- Title(参考訳): 次世代予測の落とし穴
- Authors: Gregor Bachmann, Vaishnavh Nagarajan
- Abstract要約: 自己回帰的推論と教師強制訓練の2つの相が明確に扱われなければならないと我々は論じている。
本稿では,教師の強制力の失敗に関する一般的なメカニズムを説明し,最小限の計画課題を設計する。
複数のトークンを事前に予測するトレーニングにおいて,この障害が解決可能であることを示す予備的証拠を提供する。
- 参考スコア(独自算出の注目度): 22.070336216767767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can a mere next-token predictor faithfully model human intelligence? We
crystallize this intuitive concern, which is fragmented in the literature. As a
starting point, we argue that the two often-conflated phases of next-token
prediction -- autoregressive inference and teacher-forced training -- must be
treated distinctly. The popular criticism that errors can compound during
autoregressive inference, crucially assumes that teacher-forcing has learned an
accurate next-token predictor. This assumption sidesteps a more deep-rooted
problem we expose: in certain classes of tasks, teacher-forcing can simply fail
to learn an accurate next-token predictor in the first place. We describe a
general mechanism of how teacher-forcing can fail, and design a minimal
planning task where both the Transformer and the Mamba architecture empirically
fail in that manner -- remarkably, despite the task being straightforward to
learn. We provide preliminary evidence that this failure can be resolved when
training to predict multiple tokens in advance. We hope this finding can ground
future debates and inspire explorations beyond the next-token prediction
paradigm. We make our code available under
https://github.com/gregorbachmann/Next-Token-Failures
- Abstract(参考訳): 人間の知性を忠実にモデル化できるのか?
我々はこの直感的な関心事を結晶化し、文献に断片化している。
出発点として,次回予測の2つの段階 - 自己回帰的推論と教師強制訓練 - を明確に扱う必要があると論じる。
自己回帰推論においてエラーが複雑になるという一般的な批判は、教師の強制が正確な次段階の予測を学習したことを決定的に仮定している。
この仮定は、私たちが公開するより深い根源的な問題を回避します。 タスクの特定のクラスでは、教師による強制は、そもそも、正確な次の分岐予測器を学習できないのです。
教師の強制がいかに失敗するかという一般的なメカニズムを説明し、TransformerとMambaアーキテクチャの両方がその方法で実証的に失敗する最小限の計画タスクを設計する。
複数のトークンを事前に予測するトレーニングにおいて,この障害が解決可能であることを示す予備的証拠を提供する。
この発見が将来の議論の基礎となり、次世代の予測パラダイムを超えて探究を促すことを願っている。
コードをhttps://github.com/gregorbachmann/Next-Token-Failuresで公開しています。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Improving Next Tokens via Second-to-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の2番目から最後のトークンを予測するために,デコーダのみのアーキテクチャをトレーニングする。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - TaskMet: Task-Driven Metric Learning for Model Learning [29.0053868393653]
ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。
本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。
このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
論文 参考訳(メタデータ) (2023-12-08T18:59:03Z) - Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability [25.52470575274251]
より長く一貫性のあるテキストを生成するために学習する前に、言語モデルが短い反復句を生成するのを観察する。
個々のトークンは、トレーニング前のランニングで驚くほど一貫性のある、突然の増減または損失の減少を示すことが多い。
より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。
論文 参考訳(メタデータ) (2023-08-29T16:24:09Z) - Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect
Sentiment Quad Prediction [52.05304897163256]
トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。
具体的には、事前訓練された言語モデルのビルトイン不確実性を理解するために、モンテカルロのドロップアウトを導入する。
さらに,不確実性を認識した誤りトークンを抑制するために,差分学習を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:49:06Z) - Are socially-aware trajectory prediction models really socially-aware? [75.36961426916639]
我々は,予測モデルの社会的理解を評価するために,社会的に意図された攻撃を導入する。
攻撃は、予測器を失敗させるため、小さなが慎重に構成された摂動である。
我々の攻撃は、最先端モデルの社会的理解を高めるために有効であることを示す。
論文 参考訳(メタデータ) (2021-08-24T17:59:09Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。