論文の概要: Aioli: A Unified Optimization Framework for Language Model Data Mixing
- arxiv url: http://arxiv.org/abs/2411.05735v2
- Date: Mon, 21 Apr 2025 03:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 17:11:52.620418
- Title: Aioli: A Unified Optimization Framework for Language Model Data Mixing
- Title(参考訳): Aioli: 言語モデルデータ混合のための統一最適化フレームワーク
- Authors: Mayee F. Chen, Michael Y. Hu, Nicholas Lourie, Kyunghyun Cho, Christopher Ré,
- Abstract要約: 提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
- 参考スコア(独自算出の注目度): 74.50480703834508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model performance depends on identifying the optimal mixture of data groups to train on (e.g., law, code, math). Prior work has proposed a diverse set of methods to efficiently learn mixture proportions, ranging from fitting regression models over training runs to dynamically updating proportions throughout training. Surprisingly, we find that no existing method consistently outperforms a simple stratified sampling baseline in terms of average test perplexity. To understand this inconsistency, we unify existing methods into a standard framework, showing they are equivalent to solving a common optimization problem: minimize average loss subject to a method-specific mixing law -- an implicit assumption on the relationship between loss and mixture proportions. This framework suggests that measuring the fidelity of a method's mixing law can offer insights into its performance. Empirically, we find that existing methods set their mixing law parameters inaccurately, resulting in the inconsistent mixing performance we observe. Using this insight, we derive a new online method named Aioli, which directly estimates the mixing law parameters throughout training and uses them to dynamically adjust proportions. Aioli outperforms stratified sampling on 6 out of 6 datasets by an average of 0.27 test perplexity points, whereas existing methods fail to consistently beat stratified sampling, doing up to 6.9 points worse. Moreover, in a practical setting where proportions are learned on shorter runs due to computational constraints, Aioli can dynamically adjust these proportions over the full training run, consistently improving performance over existing methods by up to 12.012 test perplexity points.
- Abstract(参考訳): 言語モデルのパフォーマンスは、トレーニングするデータグループ(例えば、法則、コード、数学)の最適な混合を特定することに依存する。
従来の研究では、トレーニング実行に対する回帰モデルの適合から、トレーニング中の比率を動的に更新することまで、混合比率を効率的に学習するための様々な方法が提案されてきた。
意外なことに、既存の手法は平均的なテストパープレキシティにおいて、単純な階層化サンプリングベースラインを一貫して上回りません。
この矛盾を理解するために、我々は既存のメソッドを標準フレームワークに統合し、それらが共通の最適化問題の解決と等価であることを示す: メソッド固有の混合法に基づく平均損失を最小化する - 損失と混合比の関係に関する暗黙の仮定。
この枠組みは、メソッドの混合則の忠実度を測定することで、その性能に関する洞察が得られることを示唆している。
実験により,既存手法は法則パラメータを不正確な値に設定し,不整合な混合性能をもたらすことがわかった。
この知見を応用して、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、比率を動的に調整する。
Aioliは6つのデータセットのうち6つで平均0.27のテストパープレキシティポイントで成層サンプリングを上回っているが、既存の手法では成層サンプリングを常に上回っておらず、最大6.9ポイントも悪化している。
さらに、計算制約によって短い実行時間でパーセンテージが学習される実践的な環境では、Aioliはこれらのパーセンテージをフルトレーニングランで動的に調整することができ、既存のメソッドよりも最大12.012テストパープレキシティポイントの性能を継続的に向上させることができる。
関連論文リスト
- Parallel Split Learning with Global Sampling [9.57839529462706]
並列分割学習は、リソース制約のあるデバイス上での分散学習に適した分割学習の有望な派生として登場した。
これらの課題には、大きな効果的なバッチサイズ、非独立で同一の分散データ、ストラグラー効果が含まれる。
クライアント数から有効バッチサイズを分離し,ミニバッチの偏差を低減するため,一様グローバルサンプリングと呼ばれる新しい手法を提案する。
提案手法は,非独立かつ同一に分散した環境下でのモデル精度を最大34.1%向上し,ストラグラーの存在下でのトレーニング時間を最大62%削減する。
論文 参考訳(メタデータ) (2024-07-22T15:41:23Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Unsupervised Outlier Detection using Random Subspace and Subsampling Ensembles of Dirichlet Process Mixtures [1.3258129717033857]
本稿では,ディリクレ過程のガウス混合のアンサンブルを利用した新しい外乱検出法を提案する。
この教師なしのアルゴリズムは、ランダムな部分空間とサブサンプリングアンサンブルを用いて、効率的な計算を確実にし、アウタリア検出器のロバスト性を改善する。
論文 参考訳(メタデータ) (2024-01-01T14:34:11Z) - Tailoring Mixup to Data for Calibration [12.050401897136501]
Mixupはキャリブレーションと予測の不確実性を改善する技術である。
この研究では、データ間の距離が混合されるにつれて、多様体の侵入の可能性が増加することを論じる。
本研究では, 混合する試料間の類似度に応じて, 係数の基底分布を動的に変化させることを提案する。
論文 参考訳(メタデータ) (2023-11-02T17:48:28Z) - Scalable Dynamic Mixture Model with Full Covariance for Probabilistic Traffic Forecasting [14.951166842027819]
時間変化誤差過程に対するゼロ平均ガウス分布の動的混合を提案する。
提案手法は,学習すべきパラメータを数つ追加するだけで,既存のディープラーニングフレームワークにシームレスに統合することができる。
提案手法を交通速度予測タスク上で評価し,提案手法がモデル水平線を改良するだけでなく,解釈可能な時間相関構造も提供することを発見した。
論文 参考訳(メタデータ) (2022-12-10T22:50:00Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - Network Estimation by Mixing: Adaptivity and More [2.3478438171452014]
我々は、利用可能な任意のモデルを利用して、個々のパフォーマンスを改善する混合戦略を提案する。
提案手法は計算効率が高く,チューニングがほとんどない。
提案手法は,真のモデルが個々の候補に含まれる場合のオラクル推定と同等に動作することを示す。
論文 参考訳(メタデータ) (2021-06-05T05:17:04Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。