論文の概要: Dynamic Gradient Alignment for Online Data Mixing
- arxiv url: http://arxiv.org/abs/2410.02498v1
- Date: Thu, 3 Oct 2024 14:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:51:33.735909
- Title: Dynamic Gradient Alignment for Online Data Mixing
- Title(参考訳): オンラインデータ混合のための動的勾配アライメント
- Authors: Simin Fan, David Grangier, Pierre Ablin,
- Abstract要約: 大規模言語モデル(LLM)を効果的に訓練するためには、学習データ混合物の構成が重要である
この問題に対する従来のアプローチには、アドホックリウェイト法、重要サンプリング、勾配アライメント技術などがある。
本稿では、勾配アライメントに着目し、スケーラブルなオンライン勾配アライメントアルゴリズムである動的勾配アライメント(DGA)を導入する。
- 参考スコア(独自算出の注目度): 23.774035761200746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The composition of training data mixtures is critical for effectively training large language models (LLMs), as it directly impacts their performance on downstream tasks. Our goal is to identify an optimal data mixture to specialize an LLM for a specific task with access to only a few examples. Traditional approaches to this problem include ad-hoc reweighting methods, importance sampling, and gradient alignment techniques. This paper focuses on gradient alignment and introduces Dynamic Gradient Alignment (DGA), a scalable online gradient alignment algorithm. DGA dynamically estimates the pre-training data mixture on which the models' gradients align as well as possible with those of the model on the specific task. DGA is the first gradient alignment approach that incurs minimal overhead compared to standard pre-training and outputs a competitive model, eliminating the need for retraining the model. Experimentally, we demonstrate significant improvements over importance sampling in two key scenarios: (i) when the pre-training set is small and importance sampling overfits due to limited data; and (ii) when there is insufficient specialized data, trapping importance sampling on narrow pockets of data. Our findings underscore the effectiveness of gradient alignment methods in optimizing training data mixtures, particularly in data-constrained environments, and offer a practical solution for enhancing LLM performance on specific tasks with limited data availability.
- Abstract(参考訳): 大規模な言語モデル(LLM)を効果的にトレーニングするには,データ混合のトレーニングが不可欠である。
我々のゴールは、いくつかの例にしかアクセスできない特定のタスクのためのLLMを専門化する最適なデータ混合物を特定することである。
この問題に対する従来のアプローチには、アドホックリウェイト法、重要サンプリング、勾配アライメント技術などがある。
本稿では、勾配アライメントに着目し、スケーラブルなオンライン勾配アライメントアルゴリズムである動的勾配アライメント(DGA)を導入する。
DGAは、モデルの勾配と特定のタスク上のモデルの勾配が一致した事前学習データ混合物を動的に推定する。
DGAは、標準的な事前学習と比較して最小限のオーバーヘッドを発生させ、競争モデルを出力する最初の勾配アライメントアプローチである。
実験では,2つの主要なシナリオにおいて,重要なサンプリングよりも顕著な改善が示された。
一 予習セットが小さければ、限られたデータによるサンプリング過多が重要となるとき。
2) 専門データが不十分な場合、狭いポケットから重要データを抽出する。
本研究は,特にデータ制約のある環境での学習データ混合の最適化における勾配アライメント手法の有効性を実証し,データ可用性に制限のある特定のタスクにおけるLCM性能向上のための実用的なソリューションを提供する。
関連論文リスト
- LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training [2.762397703396293]
LPLgrad(Loss Prediction Loss with Gradient Norm)は、モデルの不確実性を効果的に定量化し、画像分類タスクの精度を向上させる。
LPLgradは2つの異なるフェーズで動作する: (i) Em Training Phaseは、メインモデルと補助モデルとを併用して入力特徴の損失を予測することを目的としている。
この二重モデルアプローチは、複雑な入力特徴を抽出し、データから本質的なパターンを効果的に学習する能力を高める。
論文 参考訳(メタデータ) (2024-11-20T18:12:59Z) - Beware of Calibration Data for Pruning Large Language Models [41.1689082093302]
トレーニング後のプルーニングは、リソース集約的な反復的なトレーニングを必要としない有望な方法である。
キャリブレーションデータの効果は, 先進的な刈り取り戦略を設計するよりもさらに価値が高いことを示す。
予備調査では、トレーニングデータに類似したキャリブレーションデータを使用することで、より良いパフォーマンスが得られることも明らかにした。
論文 参考訳(メタデータ) (2024-10-23T09:36:21Z) - Dataset Distillation by Automatic Training Trajectories [13.502303920701163]
本稿では, 軌道長NSを動的かつ適応的に調整し, 累積ミスマッチ問題(AMP)に対処する新しいアプローチであるATT(Automatic Training Trajectories)を提案する。
本手法は, クロスアーキテクチャを含むテストにおいて, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-19T12:27:11Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。