論文の概要: Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough
- arxiv url: http://arxiv.org/abs/2408.15793v1
- Date: Wed, 28 Aug 2024 13:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:50:41.178399
- Title: Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough
- Title(参考訳): 学術計算予算への言語適応:Tokenizer Swapping WorksとPure bfloat16
- Authors: Konstantin Dobler, Gerard de Melo,
- Abstract要約: 我々は、Mistral-7Bをドイツ語やアラビア語に適応させることに重点を置いており、この設定における効率と有効性を改善するためにいくつかの手法を評価している。
我々のドイツのモデルは、この厳格な計算予算をMistral-7Bのベースと比較すると性能が劣る一方、アラビアのモデルはいくつかのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 22.514682925362017
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We investigate continued pretraining of LLMs for language adaptation on a tight academic budget: a setting in which only a few GPUs can be used in parallel, for a heavily constrained duration. We focus on adapting Mistral-7B to German or Arabic and evaluate several techniques to improve efficiency and effectiveness in this setting. Our German models adapted on this tight compute budget underperform compared to the base Mistral-7B, while our Arabic models outperform several baselines, showing that for sufficiently well-represented languages, continued pretraining for specialization is not always helpful. Our main findings focus on training precision and tokenizer swapping. Our results show that pure bfloat16 training is a viable alternative to mixed-precision training, while being much faster when only using a few GPUs. Swapping the tokenizer for a specialized one yields more efficient tokenization and is competitive with the original tokenizer, which already contains some German tokens, but did not significantly increase performance for German. Code and model weights are available at on GitHub.
- Abstract(参考訳): 厳格な予算で言語適応のためのLLMの継続的な事前訓練について検討する。
我々は、Mistral-7Bをドイツ語やアラビア語に適応させることに重点を置いており、この設定における効率と有効性を改善するためにいくつかの手法を評価している。
この厳密な計算予算に適合したドイツのモデルはMistral-7Bに比べて性能が劣る一方、アラビアのモデルはいくつかのベースラインを上回り、十分に表現された言語では、特殊化のための事前訓練は必ずしも役に立たない。
本研究の主な成果は, トレーニング精度とトークンスワップに着目した。
以上の結果から,純粋なbfloat16トレーニングは,数個のGPUのみを使用する場合よりもはるかに高速でありながら,混合精度トレーニングの代替となる可能性が示唆された。
特殊トークン化器をスワップすることでより効率的なトークン化が可能となり、ドイツのトークンを含むオリジナルのトークン化器と競合するが、ドイツ語のパフォーマンスは大幅に向上しなかった。
コードとモデルの重み付けはGitHubで入手できる。
関連論文リスト
- Can the Variation of Model Weights be used as a Criterion for Self-Paced Multilingual NMT? [7.330978520551704]
トレーニングデータが不足している場合、多くの1対1のニューラルマシン翻訳システムが1対1のシステムを改善する。
本稿では,そのようなシステムを訓練する際,ミニバッチ言語を選択するための新しいアルゴリズムを設計・テストする。
論文 参考訳(メタデータ) (2024-10-05T12:52:51Z) - Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Zero-Shot Tokenizer Transfer [17.597293085255075]
我々は、トークン化器を入力とし、対応する埋め込みを予測するハイパーネットワークを訓練する。
我々の手法は、言語間およびコーディングタスクにおける元のモデルの性能に近い。
論文 参考訳(メタデータ) (2024-05-13T16:17:10Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Bilingual Mutual Information Based Adaptive Training for Neural Machine
Translation [38.83163343372786]
本稿では,両言語主義の観点から,目標トークンの学習難度を計測する,新しいバイリンガル相互情報(BMI)に基づく適応目的を提案する。
WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2021-05-26T12:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。