論文の概要: Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings
- arxiv url: http://arxiv.org/abs/2605.13225v1
- Date: Wed, 13 May 2026 09:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.937754
- Title: Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings
- Title(参考訳): Mix, Don't Tune:データ制約設定におけるバイリンガル事前学習のハイパーパラメータ検索性能
- Authors: Paul Jeha, Anastasiia Sedova, Louis Béthune, Skyler Seto, Jes Frellsen, Pierre Ablin, Natalie Schluter,
- Abstract要約: データ制約領域における言語モデルの事前学習を改善する方法について述べる。
私たちは低資源のターゲットとしてアラビア語を使い、補助として英語を使います。
検証損失に関するユニークなターゲットデータと、ダウンストリームタスクの精度に関する2-13$times$とで、パフォーマンスを2--3$times$と同等に向上します。
- 参考スコア(独自算出の注目度): 24.462817377406754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For most languages of the world, language model pre-training operates in a data-constrained regime where models must repeat their training data many times, degrading generalization. Two remedies exist: aggressive hyperparameter tuning such as high weight decay, and mixing in data from a high-resource auxiliary language to directly aid the low-resource target. While hyperparameter tuning regularizes the model by shrinking weights to restrict network capacity, auxiliary data mixing uses a tunable mixing ratio to expand the training distribution and diversify the training signal with new knowledge. Both offer a principled way to improve training in a data-constrained domain. We compare these levers systematically across four model scales from 150M to 1.43B parameters, using Arabic as the low-resource target and English as the auxiliary, over approximately 1000 pre-training runs. Three findings emerge. First, mixing yields larger improvements than hyperparameter tuning on both validation loss and downstream task accuracy, and the gap grows with model size. Second, we quantify how much mixing helps: it boosts performance by an amount equivalent to 2--3$\times$ the unique target data on validation loss and 2--13$\times$ on downstream task accuracy, with the gain scaling steeply with model size. Third, this divergence reveals that target-language validation loss systematically underestimates mixing's value. Mixing regularizes by diversifying the training signal and contributes knowledge the repeated target corpus cannot supply; validation loss captures only the first effect. Our practical recommendations are: mix in a high-resource language, prioritize the mixing ratio over hyperparameter tuning, and transfer hyperparameters from a small proxy model via $μ$P.
- Abstract(参考訳): 世界中のほとんどの言語において、言語モデル事前学習は、モデルがトレーニングデータを何度も繰り返しなければならないようなデータ拘束型システムで動作し、一般化を低下させる。
2つの治療法は、高重量の減衰のような攻撃的なハイパーパラメータチューニングと、低リソースのターゲットを直接支援するために高リソースの補助言語からのデータを混合することである。
ハイパーパラメータチューニングは、重みを減らしてネットワーク容量を制限することでモデルを正規化するが、補助データ混合は、調整可能な混合比を使用してトレーニング分布を拡張し、新しい知識でトレーニング信号を多様化する。
どちらも、データ制約のあるドメインでのトレーニングを改善するための、原則化された方法を提供します。
我々は、これらのレバーを4つのモデルスケール(150Mから1.43B)で体系的に比較し、アラビアを低資源目標とし、英語を補助目標とし、約1000回の事前学習走行を行った。
3つの発見がある。
第一に、ミキシングは検証損失と下流タスクの精度の両方においてハイパーパラメータチューニングよりも大きく改善され、そのギャップはモデルサイズとともに増大する。
次に、2--3$\times$と2-13$\times$と、ダウンストリームタスクの正確性に関するユニークなターゲットデータと、モデルサイズの急激なスケーリングによってパフォーマンスを向上します。
第三に、この分散は、ターゲット言語による検証損失が、混合の値の体系的に過小評価することを明らかにする。
トレーニング信号を多様化し、繰り返しターゲットコーパスが供給できない知識を寄与させることにより、混合は正規化され、バリデーション損失は最初の効果のみをキャプチャする。
我々の実践的な推奨事項は、ハイリソース言語での混合、ハイパーパラメータチューニングよりも混合比を優先、そして$μ$Pで小さなプロキシモデルからハイパーパラメータを転送することである。
関連論文リスト
- TREX: Tokenizer Regression for Optimal Data Mixture [10.917621429052183]
Tokenizer Regression for Optimal Data MiXture (TREX)は、トークン処理者のトレーニングに最適なデータ混合物を効率的に予測する回帰ベースのフレームワークである。
TREXは、ランダムな混合物上で小規模なプロキシトークンを訓練し、圧縮統計を収集し、データ混合物から圧縮性能を予測する。
TReXの予測混合物は、LLaMA3と均一分布に基づいて混合物を最大12%圧縮する。
論文 参考訳(メタデータ) (2026-01-20T04:41:09Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。
記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-08-26T04:31:28Z) - SPIRE: Conditional Personalization for Federated Diffusion Generative Models [7.8583640700306585]
Shared Backbone Personal Identity Representation Embeddings (SPIRE)は、FLで条件付き生成としてクライアント拡散ベースの生成をキャストするフレームワークである。
SPIREは、ネットワークを(i)人口レベルのスコア関数を学習する高容量なグローバルバックボーンと、(ii)ローカルデータ統計を符号化する軽量で学習可能なクライアント埋め込みに分解する。
我々の分析は、クライアントの埋め込みが共有スコアネットワークをパーソナライズするバイアスとしてどのように振舞うかを示唆している。
論文 参考訳(メタデータ) (2025-06-14T01:40:31Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。