論文の概要: Finding Optimally Robust Data Mixtures via Concave Maximization
- arxiv url: http://arxiv.org/abs/2406.01477v1
- Date: Mon, 3 Jun 2024 16:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:10:43.872798
- Title: Finding Optimally Robust Data Mixtures via Concave Maximization
- Title(参考訳): 凹凸最大化による最適ロバストデータ混合の探索
- Authors: Anvith Thudi, Chris J. Maddison,
- Abstract要約: グループ分散最適化(グループDRO)は、非所得モデルの性能の変動を学習する一般的な方法の一つである。
我々は、MixMaxと呼ぶ手法が、エントロピー上昇を伴う特定の混合物を選択し、重要なことに、この分布を有界重みの集合に最適に適合させることで、グループDRO最適モデルを返すことを示す。
- 参考スコア(独自算出の注目度): 18.144960432059634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training on mixtures of data distributions is now common in many modern machine learning pipelines, useful for performing well on several downstream tasks. Group distributionally robust optimization (group DRO) is one popular way to learn mixture weights for training a specific model class, but group DRO methods suffer for non-linear models due to non-convex loss functions and when the models are non-parametric. We address these challenges by proposing to solve a more general DRO problem, giving a method we call MixMax. MixMax selects mixture weights by maximizing a particular concave objective with entropic mirror ascent, and, crucially, we prove that optimally fitting this mixture distribution over the set of bounded predictors returns a group DRO optimal model. Experimentally, we tested MixMax on a sequence modeling task with transformers and on a variety of non-parametric learning problems. In all instances MixMax matched or outperformed the standard data mixing and group DRO baselines, and in particular, MixMax improved the performance of XGBoost over the only baseline, data balancing, for variations of the ACSIncome and CelebA annotations datasets.
- Abstract(参考訳): データ分散の混合に関するトレーニングは、現在の多くの機械学習パイプラインで一般的であり、いくつかの下流タスクでうまく機能するのに役立つ。
群分布的ロバスト最適化(群DRO)は、特定のモデルクラスを訓練するための混合重み付けを学習する一般的な方法であるが、群DRO法は非凸損失関数とモデルが非パラメトリックであるために非線形モデルに苦しむ。
そこで我々は,より一般的なDRO問題の解法を提案し,MixMaxと呼ぶ手法を提案する。
MixMaxは、特定の凹面目標をエントロピーミラーの上昇で最大化することにより混合重量を選択し、重要なことに、この混合分布を有界予測器の集合に最適に適合させることでグループDRO最適モデルを返すことを証明した。
実験では、変換器を用いたシーケンスモデリングタスクと、様々な非パラメトリック学習問題でMixMaxを検証した。
すべてのケースにおいて、MixMaxは標準のデータミキシングとグループDROベースラインにマッチまたは性能を向上し、特にACSIncomeとCelebAアノテーションデータセットのバリエーションに対して、データバランシングの唯一のベースラインよりもXGBoostのパフォーマンスを改善した。
関連論文リスト
- RegMix: Data Mixture as Regression for Language Model Pre-training [40.45464495981735]
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixでは、さまざまなデータ混在の小さなモデルのセットをトレーニングし、レグレッションモデルを適用してパフォーマンスを予測する。
提案手法は,人間の選択に比較して優れた性能を示し,DoReMiに匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-07-01T17:31:03Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering Error in Sub-Exponential Mixture Models [8.097200145973389]
まず、混合モデルのクラスタリングにおける誤差率の普遍的な下限を確立する。
次に、この下界をサブ指数尾を持つ混合モデルで再現的アルゴリズムが達成できることを実証する。
ポアソンまたは負二項混合によりモデル化されたデータセットについて,指数族に属する混合モデルについて検討した。
このような混合では、ブロッグマンの発散を利用したロイドのアルゴリズムの変種であるブロッグマンのハードクラスタリングが最適であることを示す。
論文 参考訳(メタデータ) (2024-02-23T16:51:17Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - RandoMix: A mixed sample data augmentation method with multiple mixed
modes [12.466162659083697]
RandoMixは、堅牢性と多様性の課題に対処するために設計された、混合サンプルデータ拡張手法である。
我々は,CIFAR-10/100,Tiny-ImageNet,ImageNet,Google Speech Commandsなど,さまざまなデータセットに対するRandoMixの有効性を評価する。
論文 参考訳(メタデータ) (2022-05-18T05:31:36Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。