論文の概要: Think before you speak: Training Language Models With Pause Tokens
- arxiv url: http://arxiv.org/abs/2310.02226v3
- Date: Sun, 21 Apr 2024 03:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:42:43.504364
- Title: Think before you speak: Training Language Models With Pause Tokens
- Title(参考訳): 話す前に考える: ポーズトークンで言語モデルを訓練する
- Authors: Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan,
- Abstract要約: 言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。
代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう?
私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
- 参考スコア(独自算出の注目度): 73.61375226378712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18\%$ EM score on the QA task of SQuAD, $8\%$ on CommonSenseQA and $1\%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
- Abstract(参考訳): 言語モデルは、即座に一連のトークンを生成して応答を生成する:$(K+1)^{th}$トークンは、前回のトークンごとに1つのベクトルである層ごとに$K$隠れベクトルを操作する結果である。
代わりに、$(K+1)^{th}$トークンを出力する前に、モデルに$K+10$隠れベクトルを操作させるとしたらどうでしょう?
我々は、入力プレフィックスに付加される(学習可能な)$\textit{pause}$トークンを使って、言語モデル上でトレーニングと推論を行うことで、このアイデアを運用する。
次に、最後の一時停止トークンが見つかるまでモデルの出力を抽出するのを遅らせて、モデルが応答にコミットする前に余分な計算を処理できるようにします。
我々は,C4の因果前訓練を伴う1Bおよび130Mパラメータのデコーダのみのモデルと,推論,質問応答,一般的な理解,事実リコールを含む下流タスクに対して,$\textit{pause-training}$を経験的に評価した。
我々の主な発見は、モデルが事前訓練され、遅延とともに微調整されたときに、推論時間遅延が上昇するということである。
1Bモデルでは、9つのタスクのうち8つで、最も顕著に、SQuADのQAタスクで18\%$ EMスコアが、CommonSenseQAで8\%、GSM8kの推論タスクで1\%$精度が上昇している。
我々の研究は、遅れた次世代予測を広く適用可能な新しいパラダイムにするための概念的および実践的な研究課題を提起する。
関連論文リスト
- TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Rho-1: Not All Tokens Are What You Need [132.31428897792114]
以前の言語モデル事前学習手法は、すべてのトレーニングトークンに次トーケン予測損失を均一に適用した。
最初の分析では,異なるトークンの損失パターンを明らかにするために,言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。
コーパス内のすべての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。
Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (2024-04-11T17:52:01Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z) - Language Model Inversion [77.22715643068284]
我々は,次の確率が先行するテキストに関する驚くべき量の情報を含んでいることを示す。
我々の反転法は、BLEUが59ドル、トークンレベルのF1が78ドルでプロンプトを再構築し、正確に27%のプロンプトを回収する。
論文 参考訳(メタデータ) (2023-11-22T19:04:04Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。