論文の概要: Multi-Token Prediction Needs Registers
- arxiv url: http://arxiv.org/abs/2505.10518v1
- Date: Thu, 15 May 2025 17:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.437809
- Title: Multi-Token Prediction Needs Registers
- Title(参考訳): マルチトークン予測には登録が必要
- Authors: Anastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis,
- Abstract要約: 言語モデルの事前学習を改善するための有望な目的として,マルチトークン予測が登場した。
学習可能なレジスタトークンを入力シーケンスにインターリーブするマルチトークン予測のための,シンプルで効果的なアプローチである MuToR を提案する。
教師付き微調整を含む多種多様なユースケースにおける MuToR の有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 11.513704835071016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-token prediction has emerged as a promising objective for improving language model pretraining, but its benefits have not consistently generalized to other settings such as fine-tuning. In this paper, we propose MuToR, a simple and effective approach to multi-token prediction that interleaves learnable register tokens into the input sequence, each tasked with predicting future targets. Compared to existing methods, MuToR offers several key advantages: it introduces only a negligible number of additional parameters, requires no architectural changes--ensuring compatibility with off-the-shelf pretrained language models--and remains aligned with the next-token pretraining objective, making it especially well-suited for supervised fine-tuning. Moreover, it naturally supports scalable prediction horizons. We demonstrate the effectiveness and versatility of MuToR across a range of use cases, including supervised fine-tuning, parameter-efficient fine-tuning (PEFT), and pretraining, on challenging generative tasks in both language and vision domains. Our code will be available at: https://github.com/nasosger/MuToR.
- Abstract(参考訳): マルチトークン予測は、言語モデルの事前学習を改善するための有望な目的として現れてきたが、その利点は、微調整などの他の設定に一貫して一般化されていない。
本稿では,学習可能なレジスタトークンを入力シーケンスにインターリーブするマルチトークン予測手法であるMuToRを提案する。
MuToRは、既存のメソッドと比較して、いくつかの重要な利点がある: 無視できる数の追加パラメータのみを導入し、アーキテクチャ上の変更を必要としない。
さらに、拡張性のある予測地平線も自然にサポートしています。
言語領域と視覚領域の両方において、教師付き微調整、パラメータ効率細調整(PEFT)、事前訓練を含む様々なユースケースにおける MuToR の有効性と汎用性を示す。
私たちのコードは、https://github.com/nasosger/MuToR.comで利用可能です。
関連論文リスト
- Improving Next Tokens via Second-to-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の2番目から最後のトークンを予測するために,デコーダのみのアーキテクチャをトレーニングする。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。