論文の概要: MixMin: Finding Data Mixtures via Convex Minimization
- arxiv url: http://arxiv.org/abs/2502.10510v1
- Date: Fri, 14 Feb 2025 19:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:40.963563
- Title: MixMin: Finding Data Mixtures via Convex Minimization
- Title(参考訳): MixMin: 凸最小化によるデータの混合を見つける
- Authors: Anvith Thudi, Evianne Rovers, Yangjun Ruan, Tristan Thrush, Chris J. Maddison,
- Abstract要約: 機械学習パイプラインは、多種多様なソースからのデータの組み合わせと混合が増えている。
最適なデータ混合物を見つけることは困難でオープンな問題です。
私たちはこのデータミキシング問題を2段階の目的として定式化し、最良のミキシングは、下流の目的のために最良のモデルに導かれるものです。
本稿では,モデルクラスが大きくなるにつれて,両レベルのデータ混合目標が凸となることを観察する。
- 参考スコア(独自算出の注目度): 23.369015146176928
- License:
- Abstract: Modern machine learning pipelines are increasingly combining and mixing data from diverse and disparate sources, e.g., pre-training large language models. Yet, finding the optimal data mixture is a challenging and open problem. We formalize this data mixing problem as a bi-level objective: the best mixture is the one that would lead to the best model for a downstream objective. Unfortunately, this objective is generally intractable. In this paper, we make the observation that the bi-level data mixing objective becomes convex as our model class becomes larger. We develop and study a gradient-based approach for optimizing this convex objective, which we call MixMin, and test it on language modeling and chemistry tasks. MixMin was the only method that uniformly improved the data mixture in all our experiments. With MixMin, we improved the data mixture using less than 0.2% additional compute for a pythia-410M model trained on 8.2B tokens, resulting between 1-5% relative improvement to negative log likelihood on PIQA, ARC Easy, SciQ, and OpenWebMath. Crucially, we found that MixMin mixtures for smaller models improved training of larger models, suggesting that MixMin mixtures may be scale-invariant. When mixing bioassay data to train an XGBoost model, we saw improvements to average precision scores of 0.03-0.15.
- Abstract(参考訳): 現代の機械学習パイプラインは、多種多様なソースからのデータの組み合わせと混合が増えている。
しかし、最適なデータ混合を見つけることは困難でオープンな問題である。
私たちはこのデータミキシング問題を2段階の目的として定式化します。
残念ながら、この目的は一般に難解である。
本稿では,モデルクラスが大きくなるにつれて,両レベルのデータ混合目標が凸となることを観察する。
我々は、この凸目標を最適化するための勾配に基づくアプローチを開発し、研究し、MixMinと呼び、言語モデリングと化学タスクでテストする。
MixMinは、すべての実験でデータ混合物を均一に改善した唯一の方法でした。
MixMinでは8.2Bトークンでトレーニングされたpythia-410Mモデルに対して0.2%の追加計算を用いてデータ混合を改善し,PIQA,ARC Easy,SciQ,OpenWebMath上での負のログ可能性に対する1-5%の改善を実現した。
要は,MixMin混合物がより小型モデルのトレーニングを改善したことから,MixMin混合物はスケール不変である可能性が示唆された。
バイオアッセイデータを混合してXGBoostモデルを訓練すると, 平均精度は 0.03-0.15 向上した。
関連論文リスト
- RegMix: Data Mixture as Regression for Language Model Pre-training [40.45464495981735]
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixは、様々なデータ混合物で多くの小さなモデルを訓練し、回帰を使って目に見えない混合物のパフォーマンスを予測し、予測された最良の混合を適用して、桁違いの計算量で大規模モデルを訓練する。
論文 参考訳(メタデータ) (2024-07-01T17:31:03Z) - RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks [27.247270530020664]
本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。
C-Mixupは、レグレッションパフォーマンスを改善するためにラベル距離に基づいてサンプルを混合する、より選択的である。
本稿では,C-Mixupとマルチラウンドロバストな学習手法を密接に統合し,シナジスティックな効果を示すRC-Mixupを提案する。
論文 参考訳(メタデータ) (2024-05-28T08:02:42Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Tailoring Mixup to Data for Calibration [12.050401897136501]
Mixupはキャリブレーションと予測の不確実性を改善する技術である。
この研究では、データ間の距離が混合されるにつれて、多様体の侵入の可能性が増加することを論じる。
本研究では, 混合する試料間の類似度に応じて, 係数の基底分布を動的に変化させることを提案する。
論文 参考訳(メタデータ) (2023-11-02T17:48:28Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - MixRL: Data Mixing Augmentation for Regression using Reinforcement
Learning [2.1345682889327837]
データ拡張のための既存のテクニックは、主に分類タスクに焦点を当てており、回帰タスクに簡単には適用できない。
その結果,大容量データとラベル距離の混合がモデル性能に悪影響を及ぼす可能性が示唆された。
そこで本研究では,データ拡張メタ学習フレームワークであるMixRLを提案する。
論文 参考訳(メタデータ) (2021-06-07T07:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。