論文の概要: Actor-Critic based Online Data Mixing For Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2505.23878v1
- Date: Thu, 29 May 2025 15:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.59634
- Title: Actor-Critic based Online Data Mixing For Language Model Pre-Training
- Title(参考訳): Actor-Criticによる言語モデル事前学習のためのオンラインデータ混合
- Authors: Jing Ma, Chenhao Dang, Mingjie Liao,
- Abstract要約: 事前学習データのカバレッジと構成は、大規模言語モデル(LLM)の一般化能力に大きな影響を及ぼす
本研究では,アクタ・アクタ・アクタ・アクタ・アクタ・アクタ・オンライン・データ・ミキシング(AC-ODM)手法を開発した。
数値計算の結果,410Mパラメータを持つプロキシLDMで得られたサンプリング戦略を起動するAC-ODM-410Mは,ODMの最適検証難易度に早く到達することがわかった。
- 参考スコア(独自算出の注目度): 4.597507553542899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The coverage and composition of pretraining data significantly impacts the generalization ability of Large Language Models (LLMs). To reduce the carbon footprint and financial costs of training, some data mixing methods, which applied the optimized domain weights of a small proxy model to train a larger one, were proposed. However, these methods did not evolute with the training dynamics. The existing online data mixing (ODM) method addressed this limitation by applying the multi-armed bandit algorithm as data sampling strategy. Yet, it did not consider the intra-domain interactions. In this paper, we develop an actor-critic based online data mixing (AC-ODM) method, which captures the varying domain weights by auxiliary actor-critic networks and consider the intra-domain interactions with the reward function. While constructing the dataset to pretrain a large target LLM, we directly apply the actor, which is trained with a small proxy LLM as the environment, as the sampling strategy. The transfer of sampling strategy can not only ensure the efficiency of dynamical data mixing, but also expedite the convergence of pretraining the target LLM. Numerical results demonstrate that AC-ODM-410M, which invokes the sampling strategy obtained by a proxy LLM with 410M parameters, reaching the optimal validation perplexity of ODM 71% faster, and improves performance on the zero-shot MMLU benchmark by 27.5% of accuracy, about 2.23x better on pass@1 of HumanEval benchmark.
- Abstract(参考訳): 事前学習データのカバレッジと構成は、Large Language Models(LLMs)の一般化能力に大きな影響を及ぼす。
炭素フットプリントの削減とトレーニングの費用削減を目的として,小型プロキシモデルのドメイン重みを最適化したデータ混合法が提案された。
しかし、これらの手法はトレーニングのダイナミクスとともに進化しなかった。
既存のオンラインデータミキシング(ODM)手法は,マルチアームバンディットアルゴリズムをデータサンプリング戦略として適用することにより,この制限に対処した。
しかし、ドメイン内相互作用は考慮しなかった。
本稿では,アクター・アクター・アクター・アクター・アクター・オンライン・データ・ミキシング(AC-ODM)手法を提案する。
大規模目標LLMを事前訓練するためのデータセットを構築しながら,小さなプロキシLLMを環境としてトレーニングしたアクタを直接,サンプリング戦略として適用する。
サンプリング戦略の伝達は, 動的データ混合の効率性を確保するだけでなく, 対象LLMの事前学習の収束を早める。
数値計算の結果,410Mパラメータを持つプロキシLLMによって得られたサンプリング戦略を起動するAC-ODM-410Mは,ODMの最適精度を71%高速化し,0ショットMMLUベンチマークの性能を27.5%向上し,HumanEvalベンチマークのパス@1の約2.23倍向上した。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では, ベイズ最適化を用いたデータ選択手法として, 影響関数をインターリーブし, 特定の未確認評価タスクからのフィードバックによるデータ混合を最適化する, グローバル・ローカルなアルゴリズムを提案する。
DUETの累積的後悔を解析することにより、DUETはタスクに関するデータ知識がなくても、見えないタスクに対して最適なトレーニングデータ混合に収束することを示す。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。
このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文 参考訳(メタデータ) (2024-10-10T16:45:28Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation [84.82153655786183]
Informative Data Mining (IDM) と呼ばれる新しいフレームワークを提案し、セマンティックセグメンテーションのための効率的なワンショットドメイン適応を実現する。
IDMは、最も情報性の高いサンプルを特定するために不確実性に基づく選択基準を提供し、迅速に適応し、冗長なトレーニングを減らす。
提案手法は,GTA5/SYNTHIAからCityscapesへの適応タスクにおいて,既存の手法より優れ,56.7%/55.4%の最先端のワンショット性能を実現している。
論文 参考訳(メタデータ) (2023-09-25T15:56:01Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。