Fugu-MT 論文翻訳(概要): The pitfalls of next-token prediction

論文の概要: The pitfalls of next-token prediction

arxiv url: http://arxiv.org/abs/2403.06963v2
Date: Fri, 5 Jul 2024 20:48:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 02:19:20.930938
Title: The pitfalls of next-token prediction
Title（参考訳）: 次世代予測の落とし穴
Authors: Gregor Bachmann, Vaishnavh Nagarajan,
Abstract要約: 次トーケン予測の2つの相は明確に扱わなければならないと論じる。自己回帰推論においてエラーが複雑になるという一般的な批判は、教師の強制が正確な次段階の予測を学習したことを決定的に仮定している。本稿では,教師の強制力の失敗に関する一般的なメカニズムを説明し,トランスフォーマーとマンバアーキテクチャの両方が実証的に失敗する最小限の計画課題を設計する。
参考スコア（独自算出の注目度）: 18.68202374460919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can a mere next-token predictor faithfully model human intelligence? We crystallize this emerging concern and correct popular misconceptions surrounding it, and advocate a simple multi-token objective. As a starting point, we argue that the two often-conflated phases of next-token prediction -- autoregressive inference and teacher-forced training -- must be treated distinctly. The popular criticism that errors can compound during autoregressive inference, crucially assumes that teacher-forcing has learned an accurate next-token predictor. This assumption sidesteps a more deep-rooted problem we expose: in certain classes of tasks, teacher-forcing can simply fail to learn an accurate next-token predictor in the first place. We describe a general mechanism of how teacher-forcing can fail, and design a minimal planning task where both the Transformer and the Mamba architecture empirically fail in that manner -- remarkably, despite the task being straightforward to learn. Finally, we provide preliminary evidence that this failure can be resolved using a simple modification that predicts multiple tokens in advance. We hope this finding can ground future debates and inspire explorations beyond the next-token prediction paradigm. We make our code available under https://github.com/gregorbachmann/Next-Token-Failures
Abstract（参考訳）: 人間の知性を忠実にモデル化できるのか? 我々は、この新たな懸念を結晶化し、それを取り巻く一般的な誤解を正し、シンプルなマルチトークンの目的を提唱する。出発点として, 自己回帰的推論と教師強制訓練という, しばしば融合する次の予測の2つの段階を, 明確に扱う必要があると論じる。自己回帰推論においてエラーが複雑になるという一般的な批判は、教師の強制が正確な次段階の予測を学習したことを決定的に仮定している。この仮定は、私たちがより深く根ざした問題を後押しします。あるタスクのクラスでは、教師の強制は、まず最初に、正確に次の学習者を学ぶのに失敗するのです。教師の強制がいかに失敗するかという一般的なメカニズムを説明し、TransformerとMambaアーキテクチャの両方がその方法で実証的に失敗する最小限の計画タスクを設計する。最後に、前もって複数のトークンを予測する単純な修正によって、この障害が解決できるという予備的な証拠を提供する。この発見が将来の議論の基礎となり、次世代の予測パラダイムを超えて探究を促すことを願っている。コードをhttps://github.com/gregorbachmann/Next-Token-Failuresで公開しています。

関連論文リスト

Are you going to finish that? A Practical Study of the Partial Token Problem [85.49816027251013]
言語モデル(LM)はトークンのシーケンスによって訓練されるが、ユーザはテキストを介してLMと対話する。このミスマッチは、ユーザーが期待する次のトークンの途中でプロンプトを終了したときに発生する部分トークン問題を引き起こす。この研究では、トークンと"ワード"境界がしばしば並んでいない3つのドメインを特定します。
論文参考訳（メタデータ） (2026-01-30T17:47:16Z)
Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential [12.719829360337833]
本稿では,バニラ自己回帰言語モデルにおける未来のトークンに関する固有知識を活用する新しいフレームワークを提案する。本手法は,事前学習モデルの教師付き微調整により,大幅な高速化を実現する。
論文参考訳（メタデータ） (2025-07-16T02:31:40Z)
Next-Token Prediction Should be Ambiguity-Sensitive: A Meta-Learning Perspective [12.655285605773932]
我々は,トランスフォーマーがモデルサイズ全体にわたって高いあいまいさの予測に苦慮していることを示す。予備的な結果は、キャパシティアロケーションの改善とテストタイムのスケーラブルな推論を通じて、あいまいな文脈でかなりの増加を示す。
論文参考訳（メタデータ） (2025-06-19T13:05:12Z)
Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文参考訳（メタデータ） (2025-06-09T14:55:00Z)
Efficient Joint Prediction of Multiple Future Tokens [20.647830092055955]
本稿では,JTP(Joint Multi-token Prediction)を導入する。従来のマルチトークン予測手法とは異なり、JTPは将来トークンの教師強制を戦略的に採用している。本稿では,JTP手法が短時間の信念状態表現を実現するのに対して,マルチトークン予測の一般的な代替手段では実現できないことを示す。
論文参考訳（メタデータ） (2025-03-24T19:52:42Z)
Measuring In-Context Computation Complexity via Hidden State Prediction [33.504027525492056]
ニューラルネットワークモデルが将来の隠れ状態を予測する能力は、タスクの直感的な面白さと相関していることを示す。本稿では,各ステップで得られた新しい情報を測定するための,新しい学習予測手法を提案する。提案手法は, 文脈内で学習した形式言語の記述長, 数学的推論問題の複雑さ, 自己生成推論連鎖の正確性を予測する。
論文参考訳（メタデータ） (2025-03-17T17:56:14Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Improving Next Tokens via Second-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文参考訳（メタデータ） (2024-11-23T22:09:58Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文参考訳（メタデータ） (2024-09-17T12:54:34Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文参考訳（メタデータ） (2024-04-30T17:33:57Z)
TaskMet: Task-Driven Metric Learning for Model Learning [29.0053868393653]
ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
論文参考訳（メタデータ） (2023-12-08T18:59:03Z)
Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability [25.52470575274251]
より長く一貫性のあるテキストを生成するために学習する前に、言語モデルが短い反復句を生成するのを観察する。個々のトークンは、トレーニング前のランニングで驚くほど一貫性のある、突然の増減または損失の減少を示すことが多い。より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。
論文参考訳（メタデータ） (2023-08-29T16:24:09Z)
Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step [133.60124577507727]
思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるChain-of-Thought Distillation (SCoTD)を紹介した。
論文参考訳（メタデータ） (2023-06-24T20:15:07Z)
Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect Sentiment Quad Prediction [52.05304897163256]
トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。具体的には、事前訓練された言語モデルのビルトイン不確実性を理解するために、モンテカルロのドロップアウトを導入する。さらに,不確実性を認識した誤りトークンを抑制するために,差分学習を提案する。
論文参考訳（メタデータ） (2023-06-01T07:49:06Z)
Are socially-aware trajectory prediction models really socially-aware? [75.36961426916639]
我々は,予測モデルの社会的理解を評価するために,社会的に意図された攻撃を導入する。攻撃は、予測器を失敗させるため、小さなが慎重に構成された摂動である。我々の攻撃は、最先端モデルの社会的理解を高めるために有効であることを示す。
論文参考訳（メタデータ） (2021-08-24T17:59:09Z)
Ambiguity in Sequential Data: Predicting Uncertain Futures with Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文参考訳（メタデータ） (2020-03-10T09:15:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。