論文の概要: Tokenizer Choice For LLM Training: Negligible or Crucial?
- arxiv url: http://arxiv.org/abs/2310.08754v3
- Date: Wed, 18 Oct 2023 07:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:49:46.158180
- Title: Tokenizer Choice For LLM Training: Negligible or Crucial?
- Title(参考訳): LLMトレーニングのための tokenizer Choice: 無視可能か、それとも致命的か?
- Authors: Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max
L\"ubbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper
Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam
Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel
Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr
- Abstract要約: 24個の単言語LLMと多言語LLMを学習し,トークン化剤の選択がLLM下流性能に及ぼす影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンス、トレーニング、推論コストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
- 参考スコア(独自算出の注目度): 30.501728534887455
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The recent success of LLMs has been predominantly driven by curating the
training dataset composition, scaling of model architectures and dataset sizes
and advancements in pretraining objectives, leaving tokenizer influence as a
blind spot. Shedding light on this underexplored area, we conduct a
comprehensive study on the influence of tokenizer choice on LLM downstream
performance by training 24 mono- and multilingual LLMs at a 2.6B parameter
scale, ablating different tokenizer algorithms and parameterizations. Our
studies highlight that the tokenizer choice can significantly impact the
model's downstream performance, training and inference costs. In particular, we
find that the common tokenizer evaluation metrics fertility and parity are not
always predictive of model downstream performance, rendering these metrics a
questionable proxy for the model's downstream performance. Furthermore, we show
that multilingual tokenizers trained on the five most frequent European
languages require vocabulary size increases of factor three in comparison to
English. While English-only tokenizers have been applied to the training of
multi-lingual LLMs, we find that this approach results in a severe downstream
performance degradation and additional training costs of up to 68%, due to an
inefficient tokenization vocabulary.
- Abstract(参考訳): LLMの最近の成功は、トレーニングデータセット構成のキュレーション、モデルアーキテクチャとデータセットサイズの拡大、事前トレーニング目標の進歩、トークン化ツールの影響を盲点として残すことで、主に推進されている。
この未探索領域に光を当てると,24個の単言語 LLM と多言語 LLM を2.6B のパラメータスケールで訓練し,異なるトークン化アルゴリズムとパラメータ化を非難することにより,トークン化選択が LLM 下流性能に与える影響を包括的に研究する。
我々の研究は、トークン化ツールの選択が、モデルの下流のパフォーマンス、トレーニング、推論コストに大きな影響を与えることを強調している。
特に、共通トークン化子評価メトリクスの成熟度とパリティは、必ずしもモデルダウンストリームのパフォーマンスを予測するものではないことが分かり、これらのメトリクスをモデルのダウンストリームパフォーマンスの疑わしいプロキシにします。
さらに,ヨーロッパで最も頻度の高い5つの言語で訓練された多言語トークン化器では,英語と比較して語彙サイズが3倍に増大することを示す。
英語のみのトークン化器は多言語 LLM のトレーニングに応用されているが,非効率なトークン化語彙のため,本手法はダウンストリーム性能の悪化と最大68%のトレーニングコストをもたらすことがわかった。
関連論文リスト
- Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。
Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。
Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文 参考訳(メタデータ) (2024-10-16T19:34:34Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference [38.1823640848362]
State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
論文 参考訳(メタデータ) (2024-02-16T14:15:15Z) - Scaling Laws for Multilingual Neural Machine Translation [45.620062316968976]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文 参考訳(メタデータ) (2023-02-19T18:43:24Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。