論文の概要: How Much is Enough? The Diminishing Returns of Tokenization Training Data
- arxiv url: http://arxiv.org/abs/2502.20273v1
- Date: Thu, 27 Feb 2025 17:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:51.300648
- Title: How Much is Enough? The Diminishing Returns of Tokenization Training Data
- Title(参考訳): いくらでいいのか? 剣化研修データの減少傾向
- Authors: Varshini Reddy, Craig W. Schmidt, Yuval Pinter, Chris Tanner,
- Abstract要約: 1GBから900GBまでのデータサイズがトークン化品質に及ぼす影響について検討した。
以上の結果から,データサイズが大きくなるにつれてリターンの低下が明らかとなり,トレーニングデータのスケーリングによってトークン化の品質が向上する,という現実的な限界が浮き彫りになった。
- 参考スコア(独自算出の注目度): 4.300681074103876
- License:
- Abstract: Tokenization, a crucial initial step in natural language processing, is often assumed to benefit from larger training datasets. This paper investigates the impact of tokenizer training data sizes ranging from 1GB to 900GB. Our findings reveal diminishing returns as the data size increases, highlighting a practical limit on how much further scaling the training data can improve tokenization quality. We analyze this phenomenon and attribute the saturation effect to the constraints imposed by the pre-tokenization stage of tokenization. These results offer valuable insights for optimizing the tokenization process and highlight potential avenues for future research in tokenization algorithms.
- Abstract(参考訳): 自然言語処理における重要な最初のステップであるトークン化は、より大きなトレーニングデータセットの恩恵を受けることが多い。
本稿では,1GBから900GBまでのトークンマイザのトレーニングデータサイズの影響について検討する。
以上の結果から,データサイズが大きくなるにつれてリターンの低下が明らかとなり,トレーニングデータのスケーリングによってトークン化の品質が向上する,という現実的な限界が浮き彫りになった。
本稿では, この現象を分析し, トークン化前段階の制約による飽和効果を考察する。
これらの結果は、トークン化プロセスの最適化に有用な洞察を与え、トークン化アルゴリズムにおける将来の研究への潜在的な道のりを浮き彫りにする。
関連論文リスト
- Three Things to Know about Deep Metric Learning [34.16300515811057]
本稿では,オープンセット画像検索のための教師付き深度学習について述べる。
損失関数、ミックスアップ正規化、モデル初期化の3つの重要な側面に焦点を当てている。
これらのコンポーネントの体系的な研究を通じて、それらの相乗効果により、大規模なモデルが一般的なベンチマークをほぼ解決できることを実証する。
論文 参考訳(メタデータ) (2024-12-17T00:49:12Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Small batch deep reinforcement learning [31.69289254478042]
値に基づく深層強化学習では、バッチサイズパラメータは、各勾配更新に対するサンプルへの遷移数を指定する。
本研究では,バッチサイズを小さくすることで,多くの大幅な性能向上が期待できることを示す広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-10-05T20:31:37Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - An Information Extraction Study: Take In Mind the Tokenization! [18.20319269401045]
文書から情報を抽出する際のトークン化の影響について検討する。
本稿では,サブワードベースモデルと文字ベースモデルの比較研究と解析を行う。
トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスをもたらす可能性がある。
論文 参考訳(メタデータ) (2023-03-27T11:08:35Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Dissecting Continual Learning a Structural and Data Analysis [0.0]
連続学習(Continuous Learning)は、生涯学習が可能なアルゴリズムを考案するための分野である。
ディープラーニングの手法は、モデル化されたデータがその後の学習セッションでかなりの分散シフトを受けていない場合、印象的な結果が得られる。
このようなシステムをこのインクリメンタルな設定に公開すると、パフォーマンスは急速に低下します。
論文 参考訳(メタデータ) (2023-01-03T10:37:11Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。