Fugu-MT 論文翻訳(概要): Optimal Splitting of Language Models from Mixtures to Specialized Domains

論文の概要: Optimal Splitting of Language Models from Mixtures to Specialized Domains

arxiv url: http://arxiv.org/abs/2603.19149v1
Date: Thu, 19 Mar 2026 17:07:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.287916
Title: Optimal Splitting of Language Models from Mixtures to Specialized Domains
Title（参考訳）: 混合語から特殊化語への言語モデルの最適分割
Authors: Skyler Seto, Pierre Ablin, Anastasiia Filippova, Jiayuan Ye, Louis Bethune, Angelos Katharopoulos, David Grangier,
Abstract要約: 言語モデルは、利用可能な事前学習データのスケールと多様性のために、様々な知識、言語、推論タスクにおいて印象的なパフォーマンスを達成する。一般事前学習コーパス上で個別に複数のモデルを事前学習する手法を提案し、スケーリング法則を用いて事前学習と継続事前学習の最適な計算割り当てを決定する。
参考スコア（独自算出の注目度）: 27.70682217140053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models achieve impressive performance on a variety of knowledge, language, and reasoning tasks due to the scale and diversity of pretraining data available. The standard training recipe is a two-stage paradigm: pretraining first on the full corpus of data followed by specialization on a subset of high quality, specialized data from the full corpus. In the multi-domain setting, this involves continued pretraining of multiple models on each specialized domain, referred to as split model training. We propose a method for pretraining multiple models independently over a general pretraining corpus, and determining the optimal compute allocation between pretraining and continued pretraining using scaling laws. Our approach accurately predicts the loss of a model of size N with D pretraining and D' specialization tokens, and extrapolates to larger model sizes and number of tokens. Applied to language model training, our approach improves performance consistently across common sense knowledge and reasoning benchmarks across different model sizes and compute budgets.
Abstract（参考訳）: 言語モデルは、利用可能な事前学習データのスケールと多様性のために、様々な知識、言語、推論タスクにおいて印象的なパフォーマンスを達成する。標準的なトレーニングレシピは2段階のパラダイムで、まずは全コーパスで事前トレーニングを行い、続いて高品質で専門的なデータのサブセットを専門化します。マルチドメイン設定では、分割モデルトレーニング(split model training)と呼ばれる特殊なドメインごとに複数のモデルのトレーニングを継続する。一般事前学習コーパス上で個別に複数のモデルを事前学習する手法を提案し、スケーリング法則を用いて事前学習と継続事前学習の最適な計算割り当てを決定する。提案手法は,Dの事前訓練とD'の特殊化トークンを用いたモデルNの損失を正確に予測し,より大きなモデルサイズとトークン数に外挿する。言語モデルトレーニングに適用すると、我々のアプローチは、さまざまなモデルサイズと計算予算にまたがる共通感覚知識と推論ベンチマークのパフォーマンスを一貫して改善する。

関連論文リスト

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining [39.02299450717135]
トレーニング例間の類似性の測定は、言語モデルのための高品質で多様な事前学習データセットのキュレーションに不可欠である。標準オフザシェルフ埋め込みモデルは、事前学習データキュレーション設定には適していない。
論文参考訳（メタデータ） (2025-02-04T17:09:44Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。