Fugu-MT 論文翻訳(概要): Rho-1: Not All Tokens Are What You Need

論文の概要: Rho-1: Not All Tokens Are What You Need

arxiv url: http://arxiv.org/abs/2404.07965v2
Date: Thu, 23 May 2024 06:57:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 05:40:24.908595
Title: Rho-1: Not All Tokens Are What You Need
Title（参考訳）: Rho-1:すべてのトークンが必要なものではない
Authors: Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen,
Abstract要約: 以前の言語モデル事前学習手法は、すべてのトレーニングトークンに次トーケン予測損失を均一に適用した。最初の分析では,異なるトークンの損失パターンを明らかにするために,言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。コーパス内のすべての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。 Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
参考スコア（独自算出の注目度）: 132.31428897792114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous language model pre-training methods have uniformly applied a next-token prediction loss to all training tokens. Challenging this norm, we posit that ''Not all tokens in a corpus are equally important for language model training''. Our initial analysis examines token-level training dynamics of language model, revealing distinct loss patterns for different tokens. Leveraging these insights, we introduce a new language model called Rho-1. Unlike traditional LMs that learn to predict every next token in a corpus, Rho-1 employs Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution. This approach involves scoring pretraining tokens using a reference model, and then training the language model with a focused loss on tokens with higher scores. When continual pretraining on 15B OpenWebMath corpus, Rho-1 yields an absolute improvement in few-shot accuracy of up to 30% in 9 math tasks. After fine-tuning, Rho-1-1B and 7B achieved state-of-the-art results of 40.6% and 51.8% on MATH dataset, respectively - matching DeepSeekMath with only 3% of the pretraining tokens. Furthermore, when pretraining on 80B general tokens, Rho-1 achieves 6.8% average enhancement across 15 diverse tasks, increasing both efficiency and performance of the language model pre-training.
Abstract（参考訳）: 以前の言語モデル事前学習手法は、すべてのトレーニングトークンに対して、一様に適用されている。この規範に従えば、“コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要であるわけではない”と仮定する。最初の分析では,異なるトークンの損失パターンを明らかにするために,言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。これらの知見を活用して、Rho-1と呼ばれる新しい言語モデルを導入する。コーパス内の全ての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。このアプローチでは、参照モデルを使用して事前トレーニングトークンをスコア付けし、より高いスコアを持つトークンに注目する損失で言語モデルをトレーニングする。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。微調整の後、Rho-1-1Bと7Bは、それぞれMATHデータセットで40.6%と51.8%の最先端の結果を得た。さらに、80Bの一般的なトークンで事前トレーニングを行うと、Rho-1は15のタスクで平均6.8%の強化を実現し、言語モデルの事前トレーニングの効率とパフォーマンスが向上する。

関連論文リスト

Reinforcement Pre-Training [78.5355979575498]
大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。 RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
論文参考訳（メタデータ） (2025-06-09T17:59:53Z)
Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5464748274973026]
トークンレベルで純粋に動作する回帰的な損失を示す。我々の提案したナンバートークン損失(NTL)は2つのフレーバーを持ち、Lpノルムまたはワッサーシュタイン距離を最小化する。提案手法を様々な数学的データセット上で評価し,数学関連タスクの性能を継続的に改善することを発見した。
論文参考訳（メタデータ） (2024-11-04T13:43:24Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文参考訳（メタデータ） (2024-04-30T17:33:57Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文参考訳（メタデータ） (2023-10-26T09:47:50Z)
Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。 SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文参考訳（メタデータ） (2023-05-24T16:00:54Z)
FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文参考訳（メタデータ） (2022-10-24T17:46:57Z)
ELECTRA is a Zero-Shot Learner, Too [14.315501760755609]
「プレトレイン・プロンプト・予測」は「プレトレイン・ファイン・チューン」のパラダイムに比べて目覚ましい成果を上げている。本稿では,代用トークン検出(RTD)に基づくプロンプト学習手法を提案する。実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。
論文参考訳（メタデータ） (2022-07-17T11:20:58Z)
Training Compute-Optimal Large Language Models [54.00424650998489]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文参考訳（メタデータ） (2022-03-29T13:38:03Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。