論文の概要: The pitfalls of next-token prediction
- arxiv url: http://arxiv.org/abs/2403.06963v1
- Date: Mon, 11 Mar 2024 17:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:45:30.106810
- Title: The pitfalls of next-token prediction
- Title(参考訳): 次世代予測の落とし穴
- Authors: Gregor Bachmann, Vaishnavh Nagarajan
- Abstract要約: 自己回帰的推論と教師強制訓練の2つの相が明確に扱われなければならないと我々は論じている。
本稿では,教師の強制力の失敗に関する一般的なメカニズムを説明し,最小限の計画課題を設計する。
複数のトークンを事前に予測するトレーニングにおいて,この障害が解決可能であることを示す予備的証拠を提供する。
- 参考スコア(独自算出の注目度): 22.070336216767767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can a mere next-token predictor faithfully model human intelligence? We
crystallize this intuitive concern, which is fragmented in the literature. As a
starting point, we argue that the two often-conflated phases of next-token
prediction -- autoregressive inference and teacher-forced training -- must be
treated distinctly. The popular criticism that errors can compound during
autoregressive inference, crucially assumes that teacher-forcing has learned an
accurate next-token predictor. This assumption sidesteps a more deep-rooted
problem we expose: in certain classes of tasks, teacher-forcing can simply fail
to learn an accurate next-token predictor in the first place. We describe a
general mechanism of how teacher-forcing can fail, and design a minimal
planning task where both the Transformer and the Mamba architecture empirically
fail in that manner -- remarkably, despite the task being straightforward to
learn. We provide preliminary evidence that this failure can be resolved when
training to predict multiple tokens in advance. We hope this finding can ground
future debates and inspire explorations beyond the next-token prediction
paradigm. We make our code available under
https://github.com/gregorbachmann/Next-Token-Failures
- Abstract(参考訳): 人間の知性を忠実にモデル化できるのか?
我々はこの直感的な関心事を結晶化し、文献に断片化している。
出発点として,次回予測の2つの段階 - 自己回帰的推論と教師強制訓練 - を明確に扱う必要があると論じる。
自己回帰推論においてエラーが複雑になるという一般的な批判は、教師の強制が正確な次段階の予測を学習したことを決定的に仮定している。
この仮定は、私たちが公開するより深い根源的な問題を回避します。 タスクの特定のクラスでは、教師による強制は、そもそも、正確な次の分岐予測器を学習できないのです。
教師の強制がいかに失敗するかという一般的なメカニズムを説明し、TransformerとMambaアーキテクチャの両方がその方法で実証的に失敗する最小限の計画タスクを設計する。
複数のトークンを事前に予測するトレーニングにおいて,この障害が解決可能であることを示す予備的証拠を提供する。
この発見が将来の議論の基礎となり、次世代の予測パラダイムを超えて探究を促すことを願っている。
コードをhttps://github.com/gregorbachmann/Next-Token-Failuresで公開しています。
関連論文リスト
- TaskMet: Task-Driven Metric Learning for Model Learning [31.118311918110454]
ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。
本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。
このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
論文 参考訳(メタデータ) (2023-12-08T18:59:03Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - You Only Forward Once: Prediction and Rationalization in A Single
Forward Pass [10.998983921416533]
教師なしの合理性抽出は、合理性のないモデル予測をサポートするために、簡潔で連続的なテキストスニペットを抽出することを目的としている。
これまでの研究では、RNP(Rationalizing Neural Prediction)フレームワークと呼ばれる2段階のフレームワークを使用してきた。
そこで我々は,論理学の緩和版から派生した,単相一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一
論文 参考訳(メタデータ) (2023-11-04T08:04:28Z) - Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect
Sentiment Quad Prediction [52.05304897163256]
トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。
具体的には、事前訓練された言語モデルのビルトイン不確実性を理解するために、モンテカルロのドロップアウトを導入する。
さらに,不確実性を認識した誤りトークンを抑制するために,差分学習を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:49:06Z) - How many Observations are Enough? Knowledge Distillation for Trajectory
Forecasting [31.57539055861249]
現在の最先端モデルは、通常、過去の追跡された場所の「歴史」に頼り、将来の位置の妥当なシーケンスを予測する。
我々は,教師ネットワークから学生ネットワークへの知識伝達を可能にする新しい蒸留戦略を考案した。
適切に定義された教師の監督により、学生ネットワークが最先端のアプローチと相容れないように実行できることが示される。
論文 参考訳(メタデータ) (2022-03-09T15:05:39Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Are socially-aware trajectory prediction models really socially-aware? [75.36961426916639]
我々は,予測モデルの社会的理解を評価するために,社会的に意図された攻撃を導入する。
攻撃は、予測器を失敗させるため、小さなが慎重に構成された摂動である。
我々の攻撃は、最先端モデルの社会的理解を高めるために有効であることを示す。
論文 参考訳(メタデータ) (2021-08-24T17:59:09Z) - Aligned Contrastive Predictive Coding [10.521845940927163]
対照的予測損失を用いて訓練された自己監督モデルが、ゆっくりと変化する潜在表現を抽出する可能性を研究する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
論文 参考訳(メタデータ) (2021-04-24T13:07:22Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。