論文の概要: Aioli: A Unified Optimization Framework for Language Model Data Mixing
- arxiv url: http://arxiv.org/abs/2411.05735v1
- Date: Fri, 08 Nov 2024 17:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:56:15.686295
- Title: Aioli: A Unified Optimization Framework for Language Model Data Mixing
- Title(参考訳): Aioli: 言語モデルデータ混合のための統一最適化フレームワーク
- Authors: Mayee F. Chen, Michael Y. Hu, Nicholas Lourie, Kyunghyun Cho, Christopher Ré,
- Abstract要約: 既存の手法では、グループごとの平均的なテストパープレキシティにおいて、単純な階層化サンプリングベースラインを一貫して上回る結果が得られない。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
- 参考スコア(独自算出の注目度): 74.50480703834508
- License:
- Abstract: Language model performance depends on identifying the optimal mixture of data groups to train on (e.g., law, code, math). Prior work has proposed a diverse set of methods to efficiently learn mixture proportions, ranging from fitting regression models over training runs to dynamically updating proportions throughout training. Surprisingly, we find that no existing method consistently outperforms a simple stratified sampling baseline in terms of average test perplexity per group. In this paper, we study the cause of this inconsistency by unifying existing methods into a standard optimization framework. We show that all methods set proportions to minimize total loss, subject to a method-specific mixing law -- an assumption on how loss is a function of mixture proportions. We find that existing parameterizations of mixing laws can express the true loss-proportion relationship empirically, but the methods themselves often set the mixing law parameters inaccurately, resulting in poor and inconsistent performance. Finally, we leverage the insights from our framework to derive a new online method named Aioli, which directly estimates the mixing law parameters throughout training and uses them to dynamically adjust proportions. Empirically, Aioli outperforms stratified sampling on 6 out of 6 datasets by an average of 0.28 test perplexity points, whereas existing methods fail to consistently beat stratified sampling, doing up to 6.9 points worse. Moreover, in a practical setting where proportions are learned on shorter runs due to computational constraints, Aioli can dynamically adjust these proportions over the full training run, consistently improving performance over existing methods by up to 12.01 test perplexity points.
- Abstract(参考訳): 言語モデルのパフォーマンスは、トレーニングするデータグループ(例えば、法則、コード、数学)の最適な混合を特定することに依存する。
従来の研究では、トレーニング実行に対する回帰モデルの適合から、トレーニング中の比率を動的に更新することまで、混合比率を効率的に学習するための様々な方法が提案されてきた。
驚くべきことに、既存の手法は、グループごとの平均的なテストパープレキシティにおいて、単純な階層化サンプリングベースラインを一貫して上回りません。
本稿では,既存の手法を標準最適化フレームワークに統合することで,この不整合の原因を考察する。
すべてのメソッドが全損失を最小限に抑えるために、メソッド固有の混合法則(損失が混合比例の関数であるという仮定)を定めていることを示す。
混合法則の既存のパラメータ化は、真の損失分配関係を経験的に表すことができるが、その手法自体が混合法則のパラメータを不正確に設定することが多く、その結果、貧弱で一貫性のない性能が得られる。
最後に、我々のフレームワークから得た洞察を活用して、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを動的にパーセンテージを調整します。
実験的に、Aioliは6つのデータセットのうち6つで平均0.28のパープレキシティポイントで成層サンプリングを上回っているが、既存の手法では成層サンプリングを常に上回っておらず、最大6.9ポイントも悪化している。
さらに、計算制約により短い実行時間でパーセンテージが学習される実践的な環境では、Aioliはこれらのパーセンテージをフルトレーニングランで動的に調整することができ、既存のメソッドよりも最大12.01テストパープレキシティポイントの性能を継続的に向上させることができる。
関連論文リスト
- Parallel Split Learning with Global Sampling [9.57839529462706]
並列分割学習は、リソース制約のあるデバイス上での分散学習に適した分割学習の有望な派生として登場した。
これらの課題には、大きな効果的なバッチサイズ、非独立で同一の分散データ、ストラグラー効果が含まれる。
クライアント数から有効バッチサイズを分離し,ミニバッチの偏差を低減するため,一様グローバルサンプリングと呼ばれる新しい手法を提案する。
提案手法は,非独立かつ同一に分散した環境下でのモデル精度を最大34.1%向上し,ストラグラーの存在下でのトレーニング時間を最大62%削減する。
論文 参考訳(メタデータ) (2024-07-22T15:41:23Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Tailoring Mixup to Data for Calibration [12.050401897136501]
Mixupはキャリブレーションと予測の不確実性を改善する技術である。
この研究では、データ間の距離が混合されるにつれて、多様体の侵入の可能性が増加することを論じる。
本研究では, 混合する試料間の類似度に応じて, 係数の基底分布を動的に変化させることを提案する。
論文 参考訳(メタデータ) (2023-11-02T17:48:28Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - Network Estimation by Mixing: Adaptivity and More [2.3478438171452014]
我々は、利用可能な任意のモデルを利用して、個々のパフォーマンスを改善する混合戦略を提案する。
提案手法は計算効率が高く,チューニングがほとんどない。
提案手法は,真のモデルが個々の候補に含まれる場合のオラクル推定と同等に動作することを示す。
論文 参考訳(メタデータ) (2021-06-05T05:17:04Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。