Fugu-MT 論文翻訳(概要): Towards Effective and Efficient Continual Pre-training of Large Language Models

論文の概要: Towards Effective and Efficient Continual Pre-training of Large Language Models

arxiv url: http://arxiv.org/abs/2407.18743v1
Date: Fri, 26 Jul 2024 13:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 13:21:05.905920
Title: Towards Effective and Efficient Continual Pre-training of Large Language Models
Title（参考訳）: 大規模言語モデルの効率的かつ効率的な継続事前学習に向けて
Authors: Jie Chen, Zhipeng Chen, Jiapeng Wang, Kun Zhou, Yutao Zhu, Jinhao Jiang, Yingqian Min, Wayne Xin Zhao, Zhicheng Dou, Jiaxin Mao, Yankai Lin, Ruihua Song, Jun Xu, Xu Chen, Rui Yan, Zhewei Wei, Di Hu, Wenbing Huang, Ji-Rong Wen,
Abstract要約: CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
参考スコア（独自算出の注目度）: 163.34610964970258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual pre-training (CPT) has been an important approach for adapting language models to specific domains or tasks. To make the CPT approach more traceable, this paper presents a technical report for continually pre-training Llama-3 (8B), which significantly enhances the Chinese language ability and scientific reasoning ability of the backbone model. To enhance the new abilities while retaining the original abilities, we design specific data mixture and curriculum strategies by utilizing existing datasets and synthesizing high-quality datasets. Specifically, we synthesize multidisciplinary scientific question and answer (QA) pairs based on related web pages, and subsequently incorporate these synthetic data to improve the scientific reasoning ability of Llama-3. We refer to the model after CPT as Llama-3-SynE (Synthetic data Enhanced Llama-3). We also present the tuning experiments with a relatively small model -- TinyLlama, and employ the derived findings to train the backbone model. Extensive experiments on a number of evaluation benchmarks show that our approach can largely improve the performance of the backbone models, including both the general abilities (+8.81 on C-Eval and +6.31 on CMMLU) and the scientific reasoning abilities (+12.00 on MATH and +4.13 on SciEval), without hurting the original capacities. Our model, data, and codes are available at https://github.com/RUC-GSAI/Llama-3-SynE.
Abstract（参考訳）: CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,CPTアプローチをよりトレースしやすくするために,中国語能力とバックボーンモデルの科学的推論能力を大幅に向上させるLlama-3 (8B) の継続的事前学習に関する技術的報告を示す。元の能力を維持しながら新たな能力を高めるために,既存のデータセットを活用し,高品質なデータセットを合成することにより,特定のデータ混合とカリキュラム戦略を設計する。具体的には、関連するWebページに基づいて、多分野の科学的質問と回答(QA)ペアを合成し、その後、これらの合成データを組み込んで、Llama-3の科学的推論能力を向上させる。我々はCPT後のモデルをLlama-3-SynE(synthetic data Enhanced Llama-3)と呼ぶ。また、比較的小さなモデルであるTinyLlamaを用いてチューニング実験を行い、得られた結果を用いてバックボーンモデルのトレーニングを行う。多くの評価ベンチマークにおいて、我々のアプローチは、一般的な能力(C-Evalでは+8.81、CMMLUでは+6.31、MATHでは+12.00、SciEvalでは+4.13)と科学的な推論能力(SciEvalでは+12.00、SciEvalでは+4.13)を含む、バックボーンモデルの性能を大幅に改善できることを示す。我々のモデル、データ、コードはhttps://github.com/RUC-GSAI/Llama-3-SynEで利用可能です。

関連論文リスト

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [12.935276089987662]
プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
論文参考訳（メタデータ） (2025-08-14T17:55:47Z)
Large-Scale Diverse Synthesis for Mid-Training [15.81154701009597]
BoostQAは100Bの大規模質問回答データセットである。本稿では,BoostQAを合成するための新しい多様化パイプラインを提案する。提案手法は,Llama-3 8Bを40Bトーケンデータセットで中級訓練し,MMLUとCMMLUで平均$mathbf12.74%の改善を実現する。
論文参考訳（メタデータ） (2025-08-02T11:37:16Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文参考訳（メタデータ） (2024-12-06T23:36:36Z)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。 T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文参考訳（メタデータ） (2024-09-19T09:24:36Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文参考訳（メタデータ） (2024-09-07T13:41:37Z)
On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。 2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文参考訳（メタデータ） (2024-07-15T13:06:00Z)
Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。データ拡張の可能性や構造化品種の導入など、その利点を強調します。テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文参考訳（メタデータ） (2023-10-11T19:16:09Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文参考訳（メタデータ） (2023-09-13T10:40:41Z)
Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。 MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文参考訳（メタデータ） (2022-03-05T14:15:59Z)
How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文参考訳（メタデータ） (2021-09-07T15:51:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。