論文の概要: Mixtera: A Data Plane for Foundation Model Training
- arxiv url: http://arxiv.org/abs/2502.19790v1
- Date: Thu, 27 Feb 2025 05:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:17.851636
- Title: Mixtera: A Data Plane for Foundation Model Training
- Title(参考訳): Mixtera: 基礎モデルトレーニングのためのデータプレーン
- Authors: Maximilian Böther, Xiaozhe Yao, Tolga Kerimoglu, Ana Klimovic,
- Abstract要約: 基礎モデルトレーニングのためのデータプレーンであるMixteraを構築、提示します。
Mixteraはトレーニングをボトルネックにせず、256GH200スーパーチップにスケールする。
また、視覚言語モデルにおける混合の役割についても検討する。
- 参考スコア(独自算出の注目度): 2.0432382886638485
- License:
- Abstract: State-of-the-art large language and vision models are trained over trillions of tokens that are aggregated from a large variety of sources. As training data collections grow, manually managing the samples becomes time-consuming, tedious, and prone to errors. Yet recent research shows that the data mixture and the order in which samples are visited during training can significantly influence model accuracy. We build and present Mixtera, a data plane for foundation model training that enables users to declaratively express which data samples should be used in which proportion and in which order during training. Mixtera is a centralized, read-only layer that is deployed on top of existing training data collections and can be declaratively queried. It operates independently of the filesystem structure and supports mixtures across arbitrary properties (e.g., language, source dataset) as well as dynamic adjustment of the mixture based on model feedback. We experimentally evaluate Mixtera and show that our implementation does not bottleneck training and scales to 256 GH200 superchips. We demonstrate how Mixtera supports recent advancements in mixing strategies by implementing the proposed Adaptive Data Optimization (ADO) algorithm in the system and evaluating its performance impact. We also explore the role of mixtures for vision-language models.
- Abstract(参考訳): 最先端の大規模言語とビジョンモデルは、さまざまなソースから集約された何兆ものトークンで訓練されています。
トレーニングデータ収集が大きくなると、手動でサンプルを管理するのに時間がかかり、面倒になり、エラーが発生しやすい。
しかし、最近の研究では、トレーニング中にサンプルが訪れたデータ混合と順序が、モデルの精度に大きな影響を与えることが示されている。
基礎モデルトレーニングのためのデータプレーンであるMixteraを構築、提示し、ユーザーはトレーニング中にどの割合でどのデータサンプルを使うべきか、どの順序で使うべきかを宣言的に表現できる。
Mixteraは、既存のトレーニングデータコレクション上にデプロイされ、宣言的にクエリできる、集中型の読み取り専用レイヤである。
ファイルシステム構造とは独立して動作し、任意のプロパティ(例えば、言語、ソースデータセット)にまたがる混合物をサポートし、モデルフィードバックに基づいて混合物を動的に調整する。
我々はMixteraを実験的に評価し、我々の実装は訓練をボトルネックにせず、256GH200スーパーチップまでスケールすることを示した。
提案した適応データ最適化(ADO)アルゴリズムをシステムに実装し、その性能への影響を評価することで、Mixteraが最近の混合戦略の進歩をいかに支援しているかを実証する。
また、視覚言語モデルにおける混合の役割についても検討する。
関連論文リスト
- DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Reconstructing Training Data from Diverse ML Models by Ensemble
Inversion [8.414622657659168]
モデルインバージョン(MI)は、学習された機械学習(ML)モデルへのアクセスを敵が悪用するものであり、研究の注目を集めている。
本研究では,訓練されたモデルのアンサンブルに制約されたジェネレータを訓練することにより,元のトレーニングデータの分布を推定するアンサンブル変換手法を提案する。
データセットを使わずに高品質な結果が得られ、想定されるトレーニングデータに類似した補助データセットを利用することで、結果がどう改善されるかを示す。
論文 参考訳(メタデータ) (2021-11-05T18:59:01Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。