論文の概要: How Much is Enough? The Diminishing Returns of Tokenization Training Data
- arxiv url: http://arxiv.org/abs/2502.20273v2
- Date: Sat, 31 May 2025 04:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.140046
- Title: How Much is Enough? The Diminishing Returns of Tokenization Training Data
- Title(参考訳): いくらでいいのか? 剣化研修データの減少傾向
- Authors: Varshini Reddy, Craig W. Schmidt, Yuval Pinter, Chris Tanner,
- Abstract要約: 1GBから900GBまでの英語学習データを用いて,BPE,UnigramLM,WordPieceのトークンをさまざまな語彙サイズで訓練する。
その結果,トレーニングデータサイズが約150GBを超えるとリターンが低下することが明らかとなり,追加データによるトークン化品質向上の実践的限界が示唆された。
- 参考スコア(独自算出の注目度): 4.300681074103876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization, a crucial initial step in natural language processing, is governed by several key parameters, such as the tokenization algorithm, vocabulary size, pre-tokenization strategy, inference strategy, and training data corpus. This paper investigates the impact of an often-overlooked hyperparameter, tokenizer training data size. We train BPE, UnigramLM, and WordPiece tokenizers across various vocabulary sizes using English training data ranging from 1GB to 900GB. Our findings reveal diminishing returns as training data size increases beyond roughly 150GB, suggesting a practical limit to the improvements in tokenization quality achievable through additional data. We analyze this phenomenon and attribute the saturation effect to constraints introduced by the pre-tokenization stage. We then demonstrate the extent to which these findings can generalize by experimenting on data in Russian, a language typologically distant from English. While the limit appears to materialize at a later phase of pre-training, around 200GB, it is in fact observed. These results provide valuable insights for optimizing the tokenization process by reducing the compute required for training on large corpora and suggest promising directions for future research in tokenization algorithms.
- Abstract(参考訳): 自然言語処理における重要な初期ステップであるトークン化は、トークン化アルゴリズム、語彙サイズ、事前トークン化戦略、推論戦略、トレーニングデータコーパスなど、いくつかの重要なパラメータによって管理されている。
本稿では、しばしば見過ごされるハイパーパラメーター、トークンー学習データサイズの影響について検討する。
1GBから900GBまでの英語学習データを用いて,BPE,UnigramLM,WordPieceのトークンをさまざまな語彙サイズで訓練する。
その結果,トレーニングデータサイズが約150GBを超えるとリターンが低下することが明らかとなり,追加データによるトークン化品質向上の実践的限界が示唆された。
我々は、この現象を分析し、飽和効果は、事前学習段階の制約によるものであるとみなす。
次に,これらの発見が,英語からタイポロジカルに離れたロシア語のデータを用いて,どのように一般化できるかを実証する。
この限界は、200GB前後の事前訓練の後期に成立しているように見えるが、実際には観察されている。
これらの結果は,大規模コーパスのトレーニングに必要な計算量を削減し,トークン化プロセスの最適化に有用な知見を提供するとともに,将来的なトークン化アルゴリズム研究の方向性を示唆する。
関連論文リスト
- Scaling Laws for Data-Efficient Visual Transfer Learning [14.114908296325277]
本稿では,視覚伝達学習におけるデータ効率のスケーリング法則に関する最初の実践的枠組みを確立する。
本稿では,蒸留効率の重要な転換点を明らかにする蒸留境界理論を提案する。
この研究は、データ制限されたレシエーションのスケーリング法則を再定義し、大規模事前学習と実践的な下流適応の知識ギャップを埋める。
論文 参考訳(メタデータ) (2025-04-17T07:01:01Z) - Reasoning to Learn from Latent Thoughts [45.59740535714148]
そこで本研究では,テキスト生成プロセスの根底にある潜在的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上できることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
推論スケーリングとEMイテレーションのメリットは、データ制約付き事前トレーニングをスケールする新たな機会を示唆している。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - Three Things to Know about Deep Metric Learning [34.16300515811057]
本稿では,オープンセット画像検索のための教師付き深度学習について述べる。
損失関数、ミックスアップ正規化、モデル初期化の3つの重要な側面に焦点を当てている。
これらのコンポーネントの体系的な研究を通じて、それらの相乗効果により、大規模なモデルが一般的なベンチマークをほぼ解決できることを実証する。
論文 参考訳(メタデータ) (2024-12-17T00:49:12Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Disparate Impact on Group Accuracy of Linearization for Private Inference [48.27026603581436]
多数派と比較して,ReLUアクティベーション数の減少は少数派に対する精度を著しく低下させることを示す。
また,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:56:29Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Small batch deep reinforcement learning [31.69289254478042]
値に基づく深層強化学習では、バッチサイズパラメータは、各勾配更新に対するサンプルへの遷移数を指定する。
本研究では,バッチサイズを小さくすることで,多くの大幅な性能向上が期待できることを示す広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-10-05T20:31:37Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - An Information Extraction Study: Take In Mind the Tokenization! [18.20319269401045]
文書から情報を抽出する際のトークン化の影響について検討する。
本稿では,サブワードベースモデルと文字ベースモデルの比較研究と解析を行う。
トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスをもたらす可能性がある。
論文 参考訳(メタデータ) (2023-03-27T11:08:35Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Dissecting Continual Learning a Structural and Data Analysis [0.0]
連続学習(Continuous Learning)は、生涯学習が可能なアルゴリズムを考案するための分野である。
ディープラーニングの手法は、モデル化されたデータがその後の学習セッションでかなりの分散シフトを受けていない場合、印象的な結果が得られる。
このようなシステムをこのインクリメンタルな設定に公開すると、パフォーマンスは急速に低下します。
論文 参考訳(メタデータ) (2023-01-03T10:37:11Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。