論文の概要: Efficient Joint Prediction of Multiple Future Tokens
- arxiv url: http://arxiv.org/abs/2503.21801v1
- Date: Mon, 24 Mar 2025 19:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.386535
- Title: Efficient Joint Prediction of Multiple Future Tokens
- Title(参考訳): マルチフューチャートークンの効率よい関節予測
- Authors: Kwangjun Ahn, Alex Lamb, John Langford,
- Abstract要約: 本稿では,JTP(Joint Multi-token Prediction)を導入する。
従来のマルチトークン予測手法とは異なり、JTPは将来トークンの教師強制を戦略的に採用している。
本稿では,JTP手法が短時間の信念状態表現を実現するのに対して,マルチトークン予測の一般的な代替手段では実現できないことを示す。
- 参考スコア(独自算出の注目度): 20.647830092055955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this short report, we introduce joint multi-token prediction (JTP), a lightweight modification of standard next-token prediction designed to enrich hidden state representations by jointly predicting multiple future tokens. Unlike previous multi-token prediction approaches, JTP strategically employs teacher forcing of future-tokens through a carefully designed representation bottleneck, allowing the model to encode rich predictive information with minimal computational overhead during training. We show that the JTP approach achieves a short-horizon belief state representation, while popular alternatives for multi-token prediction fail to do so. We demonstrate the effectiveness of our method on the synthetic star graph navigation task from from Bachmann and Nagarajan [2024], highlighting a significant performance improvement over existing methods. This manuscript presents promising preliminary results intended to stimulate further research.
- Abstract(参考訳): 本稿では,複数の将来のトークンを共同で予測することにより,隠れ状態表現の強化を目的とした,標準的な次世代予測の軽量な修正であるジョイントマルチトークン予測(JTP)を紹介する。
従来のマルチトークン予測手法とは異なり、JTPは慎重に設計された表現ボトルネックを通じて、教師に未来トークンの強制を戦略的に採用し、トレーニング中の計算オーバーヘッドを最小限に抑えたリッチな予測情報をエンコードする。
本稿では,JTP手法が短時間の信念状態表現を実現するのに対して,マルチトークン予測の一般的な代替手段では実現できないことを示す。
本稿では,Bachmann と Nagarajan [2024] の合成スターグラフナビゲーションタスクにおける提案手法の有効性について述べる。
この写本は、さらなる研究を促進することを目的とした有望な予備的な結果を提示している。
関連論文リスト
- Meta-DAN: towards an efficient prediction strategy for page-level handwritten text recognition [4.605037293860087]
本稿では,メタドキュメント注意ネットワーク(Meta-DAN)を提案する。
提案手法を10個の全ページ手書きデータセットで評価し,文字誤り率の点から平均して最先端の結果を示す。
論文 参考訳(メタデータ) (2025-04-04T11:06:09Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Improving Next Tokens via Second-to-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の2番目から最後のトークンを予測するために,デコーダのみのアーキテクチャをトレーニングする。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction [0.0]
本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。
FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。
プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-10-23T14:50:15Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction [79.78050867137594]
拡散、マスク付きトーケン予測、および次のトーケン予測はすべてトランスフォーマーネットワークアーキテクチャを使用する。
FLOPで測定された計算予算のレンズを用いて,各手法のスケーラビリティを解析する。
次点予測によって導かれるトークン予測手法は, 後続のプロンプト上での拡散率を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-05-21T21:49:39Z) - Aligned Contrastive Predictive Coding [10.521845940927163]
対照的予測損失を用いて訓練された自己監督モデルが、ゆっくりと変化する潜在表現を抽出する可能性を研究する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
論文 参考訳(メタデータ) (2021-04-24T13:07:22Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - ProphetNet: Predicting Future N-gram for Sequence-to-Sequence
Pre-training [85.35910219651572]
本稿ではProphetNetと呼ばれる新しいシーケンス・ツー・シーケンス事前学習モデルを提案する。
将来的なn-gram予測という,新たな自己教師型目標を導入している。
我々は,CNN/DailyMail,Gigaword,SQuAD 1.1ベンチマークを用いて,抽象的な要約と質問生成タスクの実験を行った。
論文 参考訳(メタデータ) (2020-01-13T05:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。