論文の概要: Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2410.18160v1
- Date: Wed, 23 Oct 2024 14:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:19.389390
- Title: Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction
- Title(参考訳): Future Token Prediction - マルチトークン予測のためのパートーケン意味状態ベクトルを用いた因果言語モデリング
- Authors: Nicholas Walker,
- Abstract要約: 本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。
FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。
プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Causal decoder-only transformer models used for generative language modelling, such as Generative Pre-trained Transformers (GPT), are trained to predict the next token in a sequence based only on its previous tokens. Despite this simple training objective, they have proved to be powerful AI tools. However, only predicting the next token results in top layer embedding vectors that are highly token-focused. There may be benefits in generating embedding vectors at each token position that better capture the overall meaning of longer sequences of future text. Recent studies matching brain scans with deep language models suggest that humans also predict upcoming words when listening or reading but consider multiple future tokens rather than just one. This research investigates a new pretraining method called Future Token Prediction (FTP). In FTP, a large transformer encoder generates top layer embedding vectors for each token position, which, instead of being passed to a language head, are linearly and expansively projected to a pseudo-sequence, which is cross attended to by a small transformer decoder to predict the next N tokens forward from that position in the sequence. The top layer embedding vectors from FTP models exhibit distinct properties compared to those from standard GPT models, varying smoothly along a text sequence as measured by cosine similarity between adjacent tokens. Text generated by FTP models show improved topic coherence compared to standard GPT-like models trained with the same prediction perplexity for the next single token. The vectors are shown to better represent the topic of text based on the results of text classification examples. On a toy, but complex, coding problem, FTP networks produce significantly better results than GPT networks.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)のような生成言語モデリングに使用される因果デコーダのみの変換モデルは、以前のトークンのみに基づいて、シーケンス内の次のトークンを予測するために訓練される。
この単純なトレーニング目標にもかかわらず、それらは強力なAIツールであることが証明された。
しかし、次のトークンを予測するだけで、トークンにフォーカスしたベクトルを最上位層に埋め込むことができる。
各トークン位置に埋め込みベクトルを生成する利点があり、将来のテキストの長いシーケンスの全体的な意味をよりよく捉えることができる。
近年の脳スキャンと深層言語モデルとのマッチング研究は、人間が聴いたり読んだりする際にも、次の単語を予測できることを示唆している。
本研究では,新しい事前学習手法であるFuture Token Prediction(FTP)について検討する。
FTPでは、大きなトランスフォーマーエンコーダが各トークン位置の上位層埋め込みベクトルを生成し、言語ヘッドに渡される代わりに、小さなトランスフォーマーデコーダで交差する擬似シーケンスに線形かつ拡張的に投影される。
FTPモデルの上位層埋め込みベクトルは、隣接するトークン間のコサイン類似性によって測定されたテキストシーケンスに沿って滑らかに変化する標準GPTモデルと異なる特性を示す。
FTPモデルによって生成されたテキストは、次のシングルトークンで同じ予測パープレキシティでトレーニングされた標準GPTのようなモデルと比較して、トピックコヒーレンスが改善されている。
これらのベクトルは、テキスト分類例の結果に基づいて、テキストのトピックをよりよく表現する。
プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - MeLT: Message-Level Transformer with Masked Document Representations as
Pre-Training for Stance Detection [15.194603982886484]
Twitter上で事前トレーニングされた階層的なメッセージエンコーダであるMessage-Level Transformer(MeLT)を紹介します。
我々は、メッセージのコンテキストを知ることの恩恵を受けるタスクとして、スタンス予測に焦点を当てる。
この事前学習されたマスク付きメッセージレベル変換器を姿勢検出の下流タスクに適用すると,F1性能は67%向上することがわかった。
論文 参考訳(メタデータ) (2021-09-16T17:07:45Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。