論文の概要: Dynamic Gradient Alignment for Online Data Mixing
- arxiv url: http://arxiv.org/abs/2410.02498v1
- Date: Thu, 3 Oct 2024 14:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:51:33.735909
- Title: Dynamic Gradient Alignment for Online Data Mixing
- Title(参考訳): オンラインデータ混合のための動的勾配アライメント
- Authors: Simin Fan, David Grangier, Pierre Ablin,
- Abstract要約: 大規模言語モデル(LLM)を効果的に訓練するためには、学習データ混合物の構成が重要である
この問題に対する従来のアプローチには、アドホックリウェイト法、重要サンプリング、勾配アライメント技術などがある。
本稿では、勾配アライメントに着目し、スケーラブルなオンライン勾配アライメントアルゴリズムである動的勾配アライメント(DGA)を導入する。
- 参考スコア(独自算出の注目度): 23.774035761200746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The composition of training data mixtures is critical for effectively training large language models (LLMs), as it directly impacts their performance on downstream tasks. Our goal is to identify an optimal data mixture to specialize an LLM for a specific task with access to only a few examples. Traditional approaches to this problem include ad-hoc reweighting methods, importance sampling, and gradient alignment techniques. This paper focuses on gradient alignment and introduces Dynamic Gradient Alignment (DGA), a scalable online gradient alignment algorithm. DGA dynamically estimates the pre-training data mixture on which the models' gradients align as well as possible with those of the model on the specific task. DGA is the first gradient alignment approach that incurs minimal overhead compared to standard pre-training and outputs a competitive model, eliminating the need for retraining the model. Experimentally, we demonstrate significant improvements over importance sampling in two key scenarios: (i) when the pre-training set is small and importance sampling overfits due to limited data; and (ii) when there is insufficient specialized data, trapping importance sampling on narrow pockets of data. Our findings underscore the effectiveness of gradient alignment methods in optimizing training data mixtures, particularly in data-constrained environments, and offer a practical solution for enhancing LLM performance on specific tasks with limited data availability.
- Abstract(参考訳): 大規模な言語モデル(LLM)を効果的にトレーニングするには,データ混合のトレーニングが不可欠である。
我々のゴールは、いくつかの例にしかアクセスできない特定のタスクのためのLLMを専門化する最適なデータ混合物を特定することである。
この問題に対する従来のアプローチには、アドホックリウェイト法、重要サンプリング、勾配アライメント技術などがある。
本稿では、勾配アライメントに着目し、スケーラブルなオンライン勾配アライメントアルゴリズムである動的勾配アライメント(DGA)を導入する。
DGAは、モデルの勾配と特定のタスク上のモデルの勾配が一致した事前学習データ混合物を動的に推定する。
DGAは、標準的な事前学習と比較して最小限のオーバーヘッドを発生させ、競争モデルを出力する最初の勾配アライメントアプローチである。
実験では,2つの主要なシナリオにおいて,重要なサンプリングよりも顕著な改善が示された。
一 予習セットが小さければ、限られたデータによるサンプリング過多が重要となるとき。
2) 専門データが不十分な場合、狭いポケットから重要データを抽出する。
本研究は,特にデータ制約のある環境での学習データ混合の最適化における勾配アライメント手法の有効性を実証し,データ可用性に制限のある特定のタスクにおけるLCM性能向上のための実用的なソリューションを提供する。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training [2.762397703396293]
LPLgrad(Loss Prediction Loss with Gradient Norm)は、モデルの不確実性を効果的に定量化し、画像分類タスクの精度を向上させる。
LPLgradは2つの異なるフェーズで動作する: (i) Em Training Phaseは、メインモデルと補助モデルとを併用して入力特徴の損失を予測することを目的としている。
この二重モデルアプローチは、複雑な入力特徴を抽出し、データから本質的なパターンを効果的に学習する能力を高める。
論文 参考訳(メタデータ) (2024-11-20T18:12:59Z) - Dataset Distillation by Automatic Training Trajectories [13.502303920701163]
本稿では, 軌道長NSを動的かつ適応的に調整し, 累積ミスマッチ問題(AMP)に対処する新しいアプローチであるATT(Automatic Training Trajectories)を提案する。
本手法は, クロスアーキテクチャを含むテストにおいて, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-19T12:27:11Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。