論文の概要: TREX: Tokenizer Regression for Optimal Data Mixture
- arxiv url: http://arxiv.org/abs/2601.13588v1
- Date: Tue, 20 Jan 2026 04:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.152385
- Title: TREX: Tokenizer Regression for Optimal Data Mixture
- Title(参考訳): TREX: 最適なデータ混合のためのTokenizer回帰
- Authors: Inho Won, Hangyeol Yoo, Minkyung Cho, Jungyeul Park, Hoyun Song, KyungTae Lim,
- Abstract要約: Tokenizer Regression for Optimal Data MiXture (TREX)は、トークン処理者のトレーニングに最適なデータ混合物を効率的に予測する回帰ベースのフレームワークである。
TREXは、ランダムな混合物上で小規模なプロキシトークンを訓練し、圧縮統計を収集し、データ混合物から圧縮性能を予測する。
TReXの予測混合物は、LLaMA3と均一分布に基づいて混合物を最大12%圧縮する。
- 参考スコア(独自算出の注目度): 10.917621429052183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.
- Abstract(参考訳): 多言語大言語モデル(LLM)のための効果的なトークン化器を構築するには、言語固有のデータ混合を慎重に制御する必要がある。
トークンライザの圧縮性能はLLMトレーニングと推論の効率に重大な影響を与えるが、既存のアプローチは最適な言語比を決定するためにヒューリスティックや大規模探索に依存している。
Tokenizer Regression for Optimal Data MiXture (TREX) は,トークンの学習に最適なデータ混合物を効率的に予測する回帰ベースのフレームワークである。
TREXは、ランダムな混合物上で小規模なプロキシトークンを訓練し、圧縮統計を収集し、データ混合物から圧縮性能を予測する。
この学習モデルは、大規模トークン化器の訓練の前にスケーラブルな混合探索を可能にし、多言語トークン化器の設計における精度とコストのトレードオフを緩和する。
TReXの予測混合物で訓練されたトケナイザーは、LLaMA3と均一分布に基づく混合物を最大12%圧縮し、高いスケーラビリティ、堅牢性、実用性を示した。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models [24.396525123797073]
本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。
我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
論文 参考訳(メタデータ) (2025-02-21T21:27:48Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。