論文の概要: Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough
- arxiv url: http://arxiv.org/abs/2408.15793v1
- Date: Wed, 28 Aug 2024 13:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-29 15:50:41.178399
- Title: Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough
- Title(参考訳): 学術計算予算への言語適応:Tokenizer Swapping WorksとPure bfloat16
- Authors: Konstantin Dobler, Gerard de Melo,
- Abstract要約: 我々は、Mistral-7Bをドイツ語やアラビア語に適応させることに重点を置いており、この設定における効率と有効性を改善するためにいくつかの手法を評価している。
我々のドイツのモデルは、この厳格な計算予算をMistral-7Bのベースと比較すると性能が劣る一方、アラビアのモデルはいくつかのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 22.514682925362017
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We investigate continued pretraining of LLMs for language adaptation on a tight academic budget: a setting in which only a few GPUs can be used in parallel, for a heavily constrained duration. We focus on adapting Mistral-7B to German or Arabic and evaluate several techniques to improve efficiency and effectiveness in this setting. Our German models adapted on this tight compute budget underperform compared to the base Mistral-7B, while our Arabic models outperform several baselines, showing that for sufficiently well-represented languages, continued pretraining for specialization is not always helpful. Our main findings focus on training precision and tokenizer swapping. Our results show that pure bfloat16 training is a viable alternative to mixed-precision training, while being much faster when only using a few GPUs. Swapping the tokenizer for a specialized one yields more efficient tokenization and is competitive with the original tokenizer, which already contains some German tokens, but did not significantly increase performance for German. Code and model weights are available at on GitHub.
- Abstract(参考訳): 厳格な予算で言語適応のためのLLMの継続的な事前訓練について検討する。
我々は、Mistral-7Bをドイツ語やアラビア語に適応させることに重点を置いており、この設定における効率と有効性を改善するためにいくつかの手法を評価している。
この厳密な計算予算に適合したドイツのモデルはMistral-7Bに比べて性能が劣る一方、アラビアのモデルはいくつかのベースラインを上回り、十分に表現された言語では、特殊化のための事前訓練は必ずしも役に立たない。
本研究の主な成果は, トレーニング精度とトークンスワップに着目した。
以上の結果から,純粋なbfloat16トレーニングは,数個のGPUのみを使用する場合よりもはるかに高速でありながら,混合精度トレーニングの代替となる可能性が示唆された。
特殊トークン化器をスワップすることでより効率的なトークン化が可能となり、ドイツのトークンを含むオリジナルのトークン化器と競合するが、ドイツ語のパフォーマンスは大幅に向上しなかった。
コードとモデルの重み付けはGitHubで入手できる。
関連論文リスト
- AdaptBPE: From General Purpose to Specialized Tokenizers [18.70903226766322]
適応コーパスの周波数に基づいて,低ユーティリティトークンをより関連性の高いトークンに選択的に置き換えるポストトレーニング適応戦略を提案する。
提案アルゴリズムは,目的語彙の適応コーパスを最も効果的に符号化したトークンの在庫を特定する。
この方法は、語彙の微調整プロセスに似た軽量な適応機構として機能し、特定のドメインやタスクに対して最適化されたトークン化を可能にする。
論文 参考訳(メタデータ) (2026-01-29T12:59:40Z) - CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning [61.359141900956125]
大言語モデル(LLM)は、ゼロショット多言語機械翻訳(MT)において競合性能を示した。
いくつかのフォローアップ作業は、好みの最適化を通じてMTのパフォーマンスをさらに改善するが、主に探索されていない重要な側面、すなわちトレーニング中にデータサンプルが与えられる順序を残している。
MT性能を向上させるために,カリキュラム学習を様々な最先端の選好最適化アルゴリズムに統合することで,この問題に対処する。
論文 参考訳(メタデータ) (2026-01-09T15:34:31Z) - Racka: Efficient Hungarian LLM Adaptation on Academic Infrastructure [0.0]
ハンガリー語と高リソース言語のリソースギャップを埋めるために設計された、軽量で継続的に事前訓練された大規模言語モデルであるRackaを紹介します。
我々はQwen-3 4Bのバックボーンに低ランク適応(LoRA)によるパラメータ効率の継続事前学習を採用する。
トレーニング分布の整合性を向上するために,トークン化剤の交換と適応を行い,ハンガリーのトークン化肥大を著しく改善した。
論文 参考訳(メタデータ) (2026-01-03T17:32:48Z) - AraToken: Optimizing Arabic Tokenization with Normalization Pipeline and Language Extension for Qwen3 [4.284434049360481]
本稿では、SentencePiece Unigramアルゴリズム上に構築されたアラビア最適化トークンであるAraTokenを紹介する。
正常化したSentencePieceは、非正規化ベースラインに比べて18%低い受精率(1.199対1.35トークン/ワード)を達成することを示す。
実験の結果,LEPは100Kアラビアサンプルの800段階において,評価損失を8.28から2.43に減少させることがわかった。
論文 参考訳(メタデータ) (2025-12-20T15:32:10Z) - ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs [1.1834200163382398]
ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。
MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
論文 参考訳(メタデータ) (2025-07-29T01:07:09Z) - One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers [43.91164842493269]
早期訓練における比較的安価な介入が「言語可塑性」を改善するかについて検討する。
本稿では,初等事前学習言語よりも多くの言語で訓練されたユニバーサルトークン化器を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:47:13Z) - Can the Variation of Model Weights be used as a Criterion for Self-Paced Multilingual NMT? [7.330978520551704]
トレーニングデータが不足している場合、多くの1対1のニューラルマシン翻訳システムが1対1のシステムを改善する。
本稿では,そのようなシステムを訓練する際,ミニバッチ言語を選択するための新しいアルゴリズムを設計・テストする。
論文 参考訳(メタデータ) (2024-10-05T12:52:51Z) - Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Zero-Shot Tokenizer Transfer [17.597293085255075]
我々は、トークン化器を入力とし、対応する埋め込みを予測するハイパーネットワークを訓練する。
我々の手法は、言語間およびコーディングタスクにおける元のモデルの性能に近い。
論文 参考訳(メタデータ) (2024-05-13T16:17:10Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Bilingual Mutual Information Based Adaptive Training for Neural Machine
Translation [38.83163343372786]
本稿では,両言語主義の観点から,目標トークンの学習難度を計測する,新しいバイリンガル相互情報(BMI)に基づく適応目的を提案する。
WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2021-05-26T12:54:24Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。