論文の概要: Improving Next Tokens via Second-Last Predictions with Generate and Refine
- arxiv url: http://arxiv.org/abs/2411.15661v1
- Date: Sat, 23 Nov 2024 22:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:53.820242
- Title: Improving Next Tokens via Second-Last Predictions with Generate and Refine
- Title(参考訳): ジェネレーションとリファインによる第2次予測による次のトークンの改善
- Authors: Johannes Schneider,
- Abstract要約: トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
- 参考スコア(独自算出の注目度): 1.8592384822257952
- License:
- Abstract: Autoregressive language models like GPT aim at predicting next tokens, while autoencoding models such as BERT are trained on tasks such as predicting masked tokens. We train a decoder only architecture for predicting the second last token for a sequence of tokens. Our approach yields higher computational training efficiency than BERT-style models by employing a structured deterministic approach towards masking tokens. We use our model to improve the next token predictions of a standard GPT by combining both predictions in a ``generate-then-refine'' approach. We show on different variants of GPT-2 and different datasets that (not unexpectedly) second last token predictions are much more accurate, i.e., more than 15\% higher accuracy than ordinary next token predictors. The ``generate-then-refine'' approach also demonstrates notable improvements in next-token predictions, yielding smaller yet consistent and significant gains.
- Abstract(参考訳): GPTのような自動回帰言語モデルは次のトークンを予測することを目的としており、BERTのような自動エンコーディングモデルはマスク付きトークンを予測するようなタスクで訓練されている。
トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。
提案手法は,マスクトークンに対する構造化決定論的アプローチを用いることにより,BERT型モデルよりも高い計算訓練効率を実現する。
我々は,'generate-then-refine''アプローチで両方の予測を組み合わせることで,標準GPTの次のトークン予測を改善するために,我々のモデルを利用する。
GPT-2と異なるデータセットの異なる変種について、(予想外の)2番目のトークン予測の方がはるかに正確である、すなわち、通常の次のトークン予測器よりも15倍高い精度であることを示す。
`generate-then-refine'' アプローチはまた、次のトーケン予測における顕著な改善を示し、より小さく、一貫性があり、顕著な利得をもたらす。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction [0.0]
本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。
FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。
プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-10-23T14:50:15Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction [79.78050867137594]
拡散、マスク付きトーケン予測、および次のトーケン予測はすべてトランスフォーマーネットワークアーキテクチャを使用する。
FLOPで測定された計算予算のレンズを用いて,各手法のスケーラビリティを解析する。
次点予測によって導かれるトークン予測手法は, 後続のプロンプト上での拡散率を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-05-21T21:49:39Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - ProphetNet: Predicting Future N-gram for Sequence-to-Sequence
Pre-training [85.35910219651572]
本稿ではProphetNetと呼ばれる新しいシーケンス・ツー・シーケンス事前学習モデルを提案する。
将来的なn-gram予測という,新たな自己教師型目標を導入している。
我々は,CNN/DailyMail,Gigaword,SQuAD 1.1ベンチマークを用いて,抽象的な要約と質問生成タスクの実験を行った。
論文 参考訳(メタデータ) (2020-01-13T05:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。